Amazon 深度学习基础 GPU AMI (Ubuntu 20.04) - Amazon Deep Learning AMIs
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 深度学习基础 GPU AMI (Ubuntu 20.04)

终止支持通知

有关入门帮助,请参阅 DLAMI 入门

AMI 名称格式

  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)${YYYY-MM-DD}

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)${YYYY-MM-DD}

支持的 EC2 实例

  • 请参阅 DLAMI 的重要更改

  • 采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en

  • 采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3(不支持 G3.16x)、P3、P3dn

该 AMI 包含以下内容:

  • 支持的 Amazon 服务:Amazon EC2

  • 操作系统:Ubuntu 20.04

  • 计算架构:x86

  • 已为以下软件包安装了最新的可用版本:

    • Linux 内核 5.15

    • FSx Lustre

    • Docker

    • Amazon CLI v2 位于/usr/local/bin/aws2 和 Amazon CLI v1 位于/usr/bin/aws

    • NVIDIA DCGM

    • Nvidia Container Toolkit

      • 版本命令: nvidia-container-cli-V

    • Nvidia-docker2

      • 版本命令:nvidia-docker 版本

  • NVIDIA Driver

    • OSS Nvidia 驱动程序:550.163.01

    • Proprietary Nvidia Driver:550.163.01

  • NVIDIA CUDA 11.7、12.1-12.4 堆栈

    • CUDA、NCCL 和 cudDN 安装目录:/-xx.x/ usr/local/cuda

      • 示例:/usr/local/cuda-12.1/

    • 已编译的 NCCL 版本:2.22.3+ .4 CUDA12

    • 默认 CUDA:12.1

      • 路径/ usr/local/cuda 指向 CUDA 12.1

      • 更新以下环境变量:

        • LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • 要拥有的路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

    • NCCL 测试位置:

      • all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • 要运行 NCCL 测试,需要传递包含以下更新的 LD_LIBRARY_PATH。

        • 已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

  • EFA 安装程序:1.39.0

  • 英伟达 GDRCopy:2.4

  • Amazon OFI NCCL 插件:作为 EFA Installer-Amazon 的一部分安装

    • Amazon OFI NCCL 现在支持单一版本的多个 NCCL 版本

    • 安装路径:/已添加到 LD_L opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib IBRARY_PATH。

    • 测试响铃的路径,消息传输:/opt/aws-ofi-nccl/tests

  • EBS 卷类型:gp3

  • Python:/usr/bin/python3.9

  • NVMe 实例存储位置(在支持的 EC2 实例上):/opt/dlami/nvme

  • 使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):

    • OSS Nvidia Driver

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
    • Proprietary Nvidia Driver:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • 使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):

    • OSS Nvidia Driver:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Proprietary Nvidia Driver:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

通知

NVIDIA Container Toolkit 1.17.4

在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。

EFA 版本从 1.37 更新为 1.38(2025-02-04 发布)

EFA 现在捆绑了 Amazon OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

Support 政策

此 AMI 的组件(如 CUDA 版本)可能在未来版本中基于框架支持策略或为了优化深度学习容器性能、减小 AMI 大小等原因而被移除或更改,恕不另行通知。 AMIs 如果 CUDA 版本未被任何支持的框架版本使用,我们会将其从中删除。

EC2 带有多个网卡的实例
  • 许多支持 EFA 的实例类型也有多个网卡。

  • DeviceIndex 对于每个网卡来说都是唯一的,并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上,p ENIs er 的数量 NetworkCard 为 2,这意味着的唯一有效值 DeviceIndex 是 0 或 1。

    • 对于主网络接口(网卡索引 0、设备索引 0),创建一个 EFA(兼具 ENA 功能的 EFA)接口。您不能使用仅限 EFA 的网络接口作为主网络接口。

    • 对于每个附加的网络接口,请使用下一个未使用的网卡索引、设备索引 1 以及 EFA(兼具 ENA 功能的 EFA)或仅 EFA 的网络接口,具体取决于您的使用案例,例如 ENA 带宽要求或 IP 地址空间。有关使用案例示例,请参阅 P5 实例的 EFA 配置。

    • 有关更多信息,请参阅此处的《EFA 指南》。

P5/P5e 实例
  • P5 和 P5e 实例包含 32 个网络接口卡,可以使用以下命令启动: Amazon CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 实例
  • P5en 包含 16 个网络接口卡,可使用以下 Amazon CLI 命令启动:

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
  • 使用以下命令固定内核版本:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • 我们建议用户避免更新其内核版本(除非为了安全修补原因),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍希望更新,则可以运行以下命令来取消固定内核版本:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • 对于每个新版本的 DLAMI,使用最新可用的兼容内核。

发布日期:2025-04-24

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20250424

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20250424

已更新
  • 将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版,以解决 2025 年 4 月 NVIDIA G PU CVEs 显示器驱动程序安全公告中提到的问题

发布日期:2025-02-17

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20250214

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20250214

已更新
已删除

发布日期:2025-02-04

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20250204

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20250204

已更新
  • EFA 版本从 1.37.0 升级到 1.38.0

    • EFA 现在捆绑了 Amazon OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

已删除

发布日期:2025-01-17

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20250117

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20250117

已更新
  • 将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G PU CVEs 显示器驱动程序安全公告中提到的问题

发布日期:2024-12-09

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20241206

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20241206

已更新
  • Nvidia Container Toolkit 版本从 1.17.0 升级到 1.17.3

发布日期:2024-11-22

AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20241122

新增了
  • 增加了对 P5en 实例 EC2 的支持。

已更新
  • EFA 安装程序版本从 1.35.0 升级到 1.37.0

  • 将 Amazon OFI NCCL 插件从 1.12.1-aws 版本升级到 1.13.0-aws

发布日期:2024-10-26

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20241025

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20241025

已更新

发布日期:2024-10-03

AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240927

已更新
  • Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2

发布日期:2024-08-27

AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240827

已更新
  • Nvidia 驱动程序和 Fabric Manager 版本从 535.183.01 升级到 550.90.07

  • EFA 版本从 1.32.0 升级到 1.34.0

  • 针对所有 CUDA 版本将 NCCL 升级到最新版本 2.22.3

    • CUDA 11.7 已从 2.16.2+ 版本升级 .7 CUDA11

    • CUDA 12.1、12.2 从 2.18.5+ 升级 .2 CUDA12

    • CUDA 12.3 从 2.21.5+ 版本升级 .4 CUDA12

新增了
  • 在目录/-12.4 中添加了 CUDA 工具包版本 12.4 usr/local/cuda

  • 增加了对 P5e 实例 EC2 的支持。

已删除
  • 移除了目录中存在的 CUDA Toolkit 版本 11.8 堆栈 /-11.8 usr/local/cuda

发布日期:2024-08-19

AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240816

新增了

发布日期:2024-06-06

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240606

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240606

已更新
  • Nvidia 驱动程序版本从 535.183.01 更新为 535.161.08

发布日期:2024-05-15

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240515

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240515

新增了
  • 在/usr/local/cuda-11 CUDA11 .7 目录中添加了 .7 堆栈,其中有 .7、NCCL 2.16 CUDA11 .2、cudnn 8.7.0,因为 1.13 支持 .7 PyTorch CUDA11

发布日期:2024-05-02

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240502

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240502

已更新
新增了
  • 添加了 CUDA12 .3 堆栈,包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7

已删除

发布日期:2024-04-04

AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240404

新增了
  • 对于 OSS Nvidia 驱动程序 DLAMIs,添加了 G6 和 Gr6 EC2 实例支持。有关更多信息,请参阅推荐的 GPU 实例

发布日期:2024-03-29

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240326

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240326

已更新
  • 在专有和 OSS Nvidia 驱动程序中,将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs

  • 从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5 EC2 实例支持。

  • 每个 DLAMI 支持的新实例如下:

    • 采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3(不支持 G3.16x)、P3、P3dn

    • 采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、P4d、P4de、P5。

发布日期:2024-03-20

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240318

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240318

新增了
  • 在 AMI awscliv2 中添加awscliv1为/usr/local/bin/aws2,在专有和 OSS Nvidia 驱动程序 AMI usr/bin/aws 上添加为/

发布日期:2024-03-14

AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240314

已更新
  • 更新了 OSS Nvidia Driver DLAMI,支持 G4dn 和 G5,更新后的当前支持如下:

    • Deep Learning Base Proprietary Nvidia Driver AMI(Ubuntu 20.04)支持 P3、P3dn、G3、G5、G4dn。

    • Deep Learning Base OSS Nvidia Driver AMI(Ubuntu 20.04)支持 G5、G4dn、P4、P5。

  • 建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G5、G4dN、P4、P5。

发布日期:2024-02-12

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240208

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240208

已更新
  • Amazon OFI NCCL 插件已从 1.7.3 更新到 1.7.4

发布日期:2024-02-01

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240201

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240201

安全性

发布日期:2023-12-04

AMI 名称
  • Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20231204

  • Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20231204

新增了
  • Amazon 深度学习 AMI (DLAMI) 分为两个独立的组:

    • 使用 Nvidia Proprietary Driver 的 DLAMI(以支持 P3、P3dn、G3、G5、G4dn)。

    • 使用 Nvidia OSS Driver 以启用 EFA 的 DLAMI(以支持 P4、P5)。

  • 有关 DLAMI 拆分的更多信息,请参阅 DLAMI 的重要更改

  • Amazon CLI 上面的查询位于要点查询 AMI-ID 下 AWSCLI (示例区域为 us-east-1

已更新
  • EFA 版本从 1.26.1 更新为 1.29.0

  • GDRCopy 已从 2.3 更新到 2.4

发布日期:2023-10-18

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20231018

已更新
  • Amazon OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版

  • CUDA 12.0-12.1 目录中的 NCCL 版本更新为 2.18.5 以与 CUDA 12.2 环境保持一致

  • CUDA12.1 已更新为默认 CUDA 版本

    • 将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • 对于想要切换到任何不同 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。

发布日期:2023-10-02

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20231002

已更新
  • NVIDIA Driver 版本从 535.54.03 更新为 535.104.12

    • 这个最新的驱动程序修复了在 535.54.03 版本中发现的 NVML ABI 中断性变更,以及在 535.86.10 版本中发现的影响 P5 实例上 CUDA Toolkit 的驱动程序回归问题。有关修复的详细信息,请参阅以下 NVIDIA 发布说明:

    • 有关修复的详细信息,请参阅以下 NVIDIA 发布说明:

      • 4235941 - NVML ABI 中断性变更修复

      • 4228552 - CUDA Toolkit 错误修复

  • 将 CUDA 12.2 目录下的 NCCL 版本更新为 2.18.5

  • EFA 版本从 1.24.1 更新为最新的 1.26.1

新增了
  • 在/usr/local/cuda- CUDA12 12.2 处添加了 .2

已删除
  • 移除了对 CUDA 11.5 和 CUDA 11.6 的支持

发布日期:2023-09-26

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230926

新增了
  • 增加了 net.naming-scheme 变更,以修复 P5 上出现的不可预测的网络接口命名问题(链接)。此更改是通过在文件的 linux 启动参数中设置 net.naming-scheme=v247 来完成的/etc/default/grub

发布日期:2023-08-30

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230830

已更新
  • 将 aws-ofi-nccl插件从 1.7.1 版本更新到 1.7.2 版本

发布日期:2023-08-11

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230811

新增了
  • 此 AMI 现在支持 P5 和以前 EC2 支持的所有实例上的多节点训练功能。

  • EC2 例如 P5,建议使用 NCCL 2.18,该版本已添加到 CUDA12 .0 和 .1 中。 CUDA12

已删除
  • 移除了对 CUDA11 .3 和 CUDA11 .4 的支持。

发布日期:2023-08-04

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230804

已更新
  • 将 Amazon OFI NCCL 插件更新到 v1.7.1

  • 将 CUDA11 .8 设为默认 PyTorch 2.0 支持 11.8,对于 P5 EC2 实例,建议使用 >= .8 CUDA11

    • 将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • 对于任何不同的 cuda 版本,请相应地定义 LD_LIBRARY_PATH。

  • 将 CUDA 12.0、12.1 目录下的 NCCL 版本更新为 2.18.3

Fixed
  • 修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager(FM)软件包加载问题。

发布日期:2023-07-19

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230719

已更新
  • EFA 版本从 1.22.1 更新为 1.24.1

  • NVIDIA 驱动程序版本从 525.85.12 更新为 535.54.03

新增了
  • 通过将 max c-state 设置为 C1,增加了 c-state 变更以禁用处理器的空闲状态。此更改是通过在文件/的 linux 启动参数中设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 来实现的 etc/default/grub

  • Amazon EC2 P5 实例支持:

    • 为使用单节点/ EC2 实例的工作流程添加了 P5 实例支持。在即将发布的版本中,将添加使用 EFA(弹性结构适配器)和 Amazon OFI NCCL 插件的多节点支持(例如用于多节点训练)。

    • 请使用 CUDA>=11.8 以获得最佳性能。

    • 已知问题:Nvidia Fabric Manager(FM)软件包在 P5 上加载时间较长,客户在启动 P5 实例后需要等待 2-3 分钟才能加载 FM。要检查 FM 是否已启动,请运行命令 sudo systemctl is-active nvidia-fabricmanager,在开始任何工作流之前,该命令应该返回 active 状态。将在未来的版本中修复该问题。

发布日期:2023-05-19

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230519

已更新
  • EFA 更新到最新版本 1.22.1

  • 将 CUDA 12.1 环境下的 NCCL 版本更新为 2.17.1

新增了
  • 在/usr/local/cuda- CUDA12 12.1 处添加了 .1

  • 通过该软件包增加了对 NVIDIA 数据中心 GPU 监视器 (DCGM) 的 datacenter-gpu-manager支持

    • 您可以通过以下查询来查看此服务的状态:sudo systemctl status nvidia-dcgm

  • 临时 NVMe 实例存储现在会自动挂载到支持的 EC2 实例,并且可以在文件夹//中访问存储。opt/dlami/nvme您可以通过下列方式来检查或修改此服务:

    • 检查 NVMe 服务状态:sudo systemctl status dlami-nvme

    • 要访问或修改服务,请执行以下操作:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh

  • NVMe volumes 为需要 IOPS 性能的高吞吐量工作流程提供了最快、最高效的存储解决方案。实例费用中包含临时 NVMe 实例存储,因此此服务不会产生额外费用。

  • NVMe 只有支持实例存储的 EC2 实例上才会挂载实例存储。有关 NVMe 支持 EC2 实例存储的实例的信息,请参阅可用实例存储卷并验证 NVMe 是否受支持。

  • 为了提高磁盘性能并减少首次写入的损失,您可以初始化实例存储(注意,此过程可能需要几个小时,具体取决于 EC2 实例类型)-初始化实例上的 EC2 实例存储卷

  • 注意: NVMe 实例存储挂载在实例上,不像 EBS 那样连接到网络。在您的实例重启或停止时,这些 NVMe 卷上的数据可能会丢失。

发布日期:2023-04-17

AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230414

已更新
  • 将 DLAMI 名称 Amazon 从深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} 更新为深度学习基础 GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}

    • 请注意,自本次发布起,我们将在一个月内继续使用旧的 AMI 名称来支持最新的 DLAMI,以应对任何所需的支持。客户可以更新其操作系统包 apt-get update && apt-get upgrade 以使用安全补丁。

  • 从 /- Amazon ofi-nccl/ 更新了 OFI NCCL 插件路径 usr/local/cuda-xx.x/efa/ to /opt/aws

  • 将 NCCL 更新为 v2.16.2 的自定义 GIT 分支,该分支由 NCCL Amazon 和 NCCL 团队共同撰写,适用于所有 CUDA 版本。它在 Amazon 基础架构上的表现更好。

新增了
  • 在/usr/local/cuda- CUDA12 12.0 处添加了 .0

  • 添加了 Amazon FSx

  • 在 /3.9 版本中增加了对 Python 3. usr/bin/python 9 版本的支持

    • 请注意,此更改并不会替换默认的系统 Python,python3 仍然指向系统 Python3.8。

    • 可以使用以下命令访问 Python3.9:

      /usr/bin/python3.9 python3.9
已删除

发布日期:2022-05-25

AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220523

已更新
  • 此版本增加了对新 EC2 实例 p4de.24xlarge 的支持。

    • 已更新 aws-efa-installer至 1.15.2 版本

    • 已更新 aws-ofi-nccl至 1.3.0-aws 版本,其中包含 p4de.24xlarge 的拓扑。

发布日期:2022-03-25

AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220325

已更新
  • EFA 版本从 1.15.0 更新为 1.15.1

发布日期:2022-03-17

AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220323

新增了
  • 初始版本