Amazon 深度学习 AMI GPU PyTorch 2.5(亚马逊 Linux 2023) - Amazon Deep Learning AMIs
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 深度学习 AMI GPU PyTorch 2.5(亚马逊 Linux 2023)

如需入门帮助,请参阅DLAMI 入门

AMI 名称格式

  • 深度学习 OSS Nvidia Driver AMI GPU PyTorch 2.5.1(亚马逊 Linux 2023)$ {YYY-MM-DD}

支持的 EC2 实例

  • 请参阅 DLAMI 的重要更改

  • 使用 OSS 进行深度学习 Nvidia Driver 支持 G4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5e、p5eN

AMI 包括以下内容:

  • 支持的 Amazon 服务: EC2

  • 操作系统:亚马逊 Linux 2023

  • 计算架构:x86

  • NVIDIA CUDA12 .4 堆栈

    • CUDA、NCCL 和 cudDN 安装路径:/-12.4/ usr/local/cuda

    • 默认 CUDA:12.4

      • 路径/ usr/local/cuda points to /usr/local/cuda -12.4/

      • 在环境变量下方更新:

        • LD_LIBRARY_PATH 要有/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

        • 拥有路径/usr/local/cuda/bin/:/usr/local/cuda/include/

    • 为 12.4 编译的 NCCL 版本:2.21.5

  • NCCL 测试地点:

    • all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • 要运行 NCCL 测试,LD_LIBRARY_PATH 已经更新了所需的路径。

      • 已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH 已使用 CUDA 版本路径更新

      • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • EFA 安装程序:1.43.1

  • 英伟达 GDRCopy:2.4.1

  • Amazon OFI NCC L:1.13.2-aws

    • Amazon OFI NCCL 现在支持单一版本的多个 NCCL 版本

    • 安装路径:/已添加到 LD_L opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib IBRARY_PATH。

    • 测试响铃的路径,消息传输:/opt/aws-ofi-nccl/tests

  • Python 版本:3.11

  • Python:/opt/conda/envs/pytorch/bin/python

  • NVIDIA 驱动程序:570.172.08

  • Amazon CLI v2 位于/usr/bin/aws

  • EBS 卷类型:gp3

  • NVMe 实例存储位置(在支持的 EC2 实例上):/opt/dlami/nvme

  • 使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):

    • OSS 英伟达驱动程序:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
  • 使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):

    • OSS 英伟达驱动程序:

      aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

版权声明

p5/p5e 实例:

  • DeviceIndex 对每个都是唯一的 NetworkCard,并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上,p ENIs er 的数量 NetworkCard 为 2,这意味着的唯一有效值 DeviceIndex 是 0 或 1。以下是使用 awscli 的 EC2 P5 实例启动命令示例,显示 NetworkCardIndex 从数字 0-31 开始,第一个接口显示 DeviceIndex 为 0,其余 31 个接口显示 DeviceIndex 为 1。

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
  • 使用以下命令固定内核版本:

    sudo dnf versionlock kernel*
  • 我们建议用户避免更新其内核版本(除非有安全补丁),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍想更新,可以运行以下命令来取消固定其内核版本:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • 对于每个新版本的 DLAMI,都使用最新可用的兼容内核。

发布日期:2025-02-17

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.5.1(亚马逊 Linux 2023)20250216

已更新

  • 将 NVIDIA 容器工具包从版本 1.17.3 更新到 1.17.4 版

已删除

发布日期:2025-01-08

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.5.1(亚马逊 Linux 2023)20250107

新增了

发布日期:2024-11-21

AMI 名称:深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.5.1(亚马逊 Linux 2023)20241120

新增了

  • 适用于亚马逊 Linux 2023 的深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.5 的首次发布

已知问题

  • 此 DLAMI 目前不支持 G4dn 和 G5 实例。 EC2 Amazon 意识到在将开源 NVIDIA 驱动程序与 Linux 内核版本 6.1 或更高版本一起使用时,可能会导致 CUDA 初始化失败,从而影响 G4dN 和 G5 实例系列。此问题会影响 Linux 发行版,例如亚马逊 Linux 2023、Ubuntu 22.04 或更高版本或 SUSE Linux Enterprise Server 15 SP6 或更高版本等。