Amazon 深度学习 ARM64 基础 GPU AMI (Ubuntu 22.04) - Amazon Deep Learning AMIs
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 深度学习 ARM64 基础 GPU AMI (Ubuntu 22.04)

如需入门帮助,请参阅DLAMI 入门

AMI 名称格式

  • 深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) $ {YYYY-MM-DD}

支持的 EC2 实例

  • g5g、p6e-GB2 00(p6e-00 支持 CUDA>=12.8)GB2

AMI 包括以下内容:

  • 支持的 Amazon 服务:Amazon EC2

  • 操作系统:Ubuntu 22.04

  • 计算架构: ARM64

  • 已为以下软件包安装了最新的可用版本:

    • Linux 内核:6. 8

    • FSx Lustre

    • Docker

    • Amazon CLI v2 位于/usr/bin/aws

    • 英伟达 DCGM

    • 英伟达容器工具包

      • 版本命令: nvidia-container-cli-V

    • nvidia-docker2

      • 版本命令:nvidia-docker 版本

  • NVIDIA 驱动程序:570.158.01

  • NVIDIA CUDA 12.4、12.5、12.6、12.8 堆栈

    • C@@ UDA、NCCL 和 cudDN 安装目录:/-xx.x/ usr/local/cuda

      • 示例:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • 已编译的 NCCL 版本

      • 对于 12.4 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .4 CUDA12

      • 对于 12.5 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .5 CUDA12

      • 对于 12.6 的 CUDA 目录,编译了 NCCL 版本 2.24.3+ .6 CUDA12

      • 对于 12.8 的 CUDA 目录,编译了 NCCL 版本 2.27.5+ .8 CUDA12

    • 默认 CUDA:12.8

      • 路径/ usr/local/cuda 指向 CUDA 12.8

      • 在环境变量下方更新:

        • LD_LIBRARY_PATH 要有 /64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • 拥有路径/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

  • EFA 安装程序:1.42.0

  • 英伟达 GDRCopy:2.5.1

  • Amazon OFI NCCL 插件附带 EFA 安装程序

    • 路径/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efa已添加到 LD_LIBRARY_PATH。

  • Amazon CLI v2 位于/usr/local/bin/aws2 和 Amazon CLI v1 位于/usr/bin/aws

  • EBS 卷类型:gp3

  • Python:/usr/bin/python3.10

  • 使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • 使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):

    aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
p6e-00 实例 GB2

p6e-GB2 00 实例包含 17 个网络接口卡,可以使用以下 Amazon CLI 命令启动:

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

版权声明

NVIDIA 容器工具包 1.17.4

在 Container Toolkit 版本 1.17.4 中,现已禁用 CUDA 兼容库的挂载。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。

支持多 ENI
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']

Support 政策

此 AMI 的这些 AMIs 组件(如 CUDA 版本)可能会根据框架支持政策进行删除和更改,或者为了优化深度学习容器的性能或在未来的版本中缩小 AMI 大小,恕不另行通知。 AMIs 如果 CUDA 版本未被任何支持的框架版本使用,我们会将其从中删除。

内核
  • 使用以下命令固定内核版本:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • 我们建议用户避免更新其内核版本(除非有安全补丁),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍希望更新,则可以运行以下命令来取消固定其内核版本:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • 对于每个新版本的 DLAMI,都使用最新可用的兼容内核。

发布日期:2025-07-04

AMI 名称:深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250704

已更新

  • 增加了对 EC2 实例 p6e-GB2 00 的支持。请注意 p6e-00 支持 CUDA>=12.8 GB2

  • 添加 EFA 1.42.0

  • 将 Nvidia 驱动程序从 570.133.20 版本升级到 570.158.01

  • 使用 NCCL 2.27.5 升级了 CUDA 12.8 堆栈

发布日期:2025-04-24

AMI 名称:深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

已更新

发布日期:2025-03-03

AMI 名称:深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250303

已更新

  • 从 550.144.03 到 570.86.15 的 Nvidia 驱动程序

  • 默认 CUDA 已从 CUDA12 .1 更改为 .6 CUDA12

新增了

  • CUDA 目录为 12.4,其中包含已编译的 NCCL 版本 2.22. CUDA12 3+ .4 和 cuDNN 9.7.1.26

  • CUDA 目录为 12.5,其中包含已编译的 NCCL 版本 2.22. CUDA12 3+ .5 和 cuDNN 9.7.1.26

  • CUDA 目录为 12.6,其中包含已编译的 NCCL 版本 2.24 CUDA12 .3+ .6 和 cuDNN 9.7.1.26

  • CUDA 目录为 12.8,其中包含已编译的 NCCL 版本 2.25 CUDA12 .1+ .8 和 cuDNN 9.7.1.26

已删除

  • 12.1 和 12.2 的 CUDA 目录

发布日期:2025-02-17

AMI 名称:深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

已更新

  • 将 NVIDIA 容器工具包从版本 1.17.3 更新到 1.17.4 版

已删除

发布日期:2025-01-17

AMI 名称:深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

已更新

  • 将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G PU CVEs 显示器驱动程序安全公告中提到的问题

发布日期:2024-10-23

AMI 名称:深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

已更新

发布日期:2024-06-06

AMI 名称:深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

已更新

  • 将 Nvidia 驱动程序版本从 535.161.08 更新到 535.183.01

发布日期:2024-05-15

AMI 名称:深度学习 ARM64 基础 OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240514

新增了

  • 适用于 Ubuntu 的深度学习 ARM64 基础 OSS DLAMI 的首次发布 22.04