Amazon深度学习 AMI GPU PyTorch 2.4 (Ubuntu 22.04) - Amazon Deep Learning AMIs
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon深度学习 AMI GPU PyTorch 2.4 (Ubuntu 22.04)

有关入门帮助,请参阅 DLAMI 入门

AMI 名称格式

  • 深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4。 $ {PATCH_VERSION} (Ubuntu 22.04) $ {YYYY-MM-DD}

支持的 EC2 实例

  • 请参阅 DLAMI 的重要更改

  • 采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、G6、Gr6、P4、P4de、P5、P5e、P5en。

该 AMI 包含以下内容:

  • 支持的Amazon服务: EC2

  • 操作系统:Ubuntu 22.04

  • 计算架构:x86

  • Python:/opt/conda/envs/pytorch/bin/python

  • NVIDIA Driver

    • OSS Nvidia Driver:550.144.03

  • 英伟达 CUDA12 .1 堆栈

    • CUDA、NCCL 和 cudDN 安装路径:/-12.4/ usr/local/cuda

    • 默认 CUDA:12.4

      • 路径/ usr/local/cuda points to /usr/local/cuda -12.4/

      • 更新以下环境变量:

        • LD_LIBRARY_PATH 要有/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib

        • 拥有路径/usr/local/cuda/bin/:/usr/local/cuda/include/

    • 编译后的系统 NCCL 版本现在/usr/local/cuda/: 2.21.5

    • PyTorch 从 c PyTorch onda 环境中编译的 NCCL 版本:2.20.5

  • NCCL 测试位置:

    • all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • 为了运行 NCCL 测试,LD_LIBRARY_PATH 已经更新了必需的路径。

      • 已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH 更新为指向 CUDA 版本路径

      • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • EFA 安装程序:1.34.0

  • 英伟达 GDRCopy:2.4.1

  • Nvidia Transformer Engine:v1.11.0

  • Amazon OFI NCCL 插件:作为 EFA Installer-Amazon 的一部分安装

    • 安装路径:/已添加到 LD_L opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib IBRARY_PATH。

    • 测试响铃的路径,消息传输:/opt/aws-ofi-nccl/tests

    • 注意: PyTorch 软件包还附带动态链接的Amazon OFI NCCL 插件作为 conda 软件 aws-ofi-nccl-dlc包, PyTorch并将使用该软件包代替系统 OFI NCCL。Amazon

  • Amazon CLI v2 是 aws2,v1 是 aws Amazon CLI

  • EBS 卷类型:gp3

  • Python 版本:3.11

  • 使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):

    • OSS Nvidia Driver

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • 使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):

    • OSS Nvidia Driver:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

通知

P5/P5e 实例
  • DeviceIndex 对每个都是唯一的 NetworkCard,并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上,p ENIs er 的数量 NetworkCard 为 2,这意味着的唯一有效值 DeviceIndex 是 0 或 1。以下是使用 awscli 的 EC2 P5 实例启动命令示例,显示 NetworkCardIndex 从数字 0-31 开始,第一个接口显示 DeviceIndex 为 0,其余 31 个接口显示 DeviceIndex 为 1。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

发布日期:2025-02-17

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216

已更新

发布日期:2025-01-21

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119

已更新

发布日期:2024-11-18

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116

Fixed
  • 由于 Ubuntu 内核为解决内核地址空间布局随机化(KASLR)功能中的缺陷而进行了更改,导致 G4Dn/G5 实例无法在 OSS Nvidia Driver 上正常初始化 CUDA。为缓解此问题,该 DLAMI 包括了一项功能,可为 G4Dn 和 G5 实例动态加载专有驱动程序。为了确保您的实例能够正常工作,请为此加载预留一段短暂的初始化时间。

    • 要查看此服务的状态和运行情况,您可以使用以下命令:

sudo systemctl is-active dynamic_driver_load.service active

发布日期:2024-10-16

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016

新增了

发布日期:2024-09-30

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929

已更新
  • Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2,旨在解决安全漏洞 CVE-2024-0133

发布日期:2024-09-26

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925

新增了
  • 深度学习 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 系列的首次发布。包括配备 NVIDIA 驱动程序 R550、CUDA=12.4.1、cuda=8.9.7、NCCL=2.20.5 和 EFA=1.34.0 的 conda 环境。 PyTorch