Amazon 深度学习基础 GPU AMI (Ubuntu 20.04) - Amazon Deep Learning AMIs
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 深度学习基础 GPU AMI (Ubuntu 20.04)

Out of Support 通知

  • Ubuntu Linux 20.04 LTS将于2025年5月31日结束其为期五年的LTS窗口,并且将不再得到其供应商的支持。 因此, Amazon 深度学习基础GPU AMI(Ubuntu 20.04)将在2025年5月31日之后没有更新。先前的版本将继续可用。请注意,任何公开发布的 AMI 都将在其创建之日起 2 年 EC2 后被弃用。有关更多信息,请参阅弃用 Amazon EC2 AMI

  • 在 3 个月内,直到 2025 年 8 月 31 日,将仅为功能问题(不提供安全补丁)提供支持。

  • Ubuntu 20.04 DLAMI 的用户应改用深度学习基础 GPU AMI(Ubuntu 22.04)或AmazonAmazon 深度学习基础 GPU AMI(Ubuntu 24.04)。或者,也可以使用Amazon 深度学习基础 AMI(亚马逊 Linux 2023)

如需入门帮助,请参阅DLAMI 入门

AMI 名称格式

  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}

支持的 EC2 实例

  • 请参阅 DLAMI 的重要更改

  • 使用 OSS 进行深度学习 Nvidia Driver 支持 G4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5e、p5eN

  • 使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn

AMI 包括以下内容:

  • 支持的 Amazon 服务:Amazon EC2

  • 操作系统:Ubuntu 20.04

  • 计算架构:x86

  • 以下软件包已安装最新可用版本:

    • Linux 内核 5.15

    • FSx Lustre

    • Docker

    • Amazon CLI v2 位于/usr/local/bin/aws2 和 Amazon CLI v1 位于/usr/bin/aws

    • 英伟达 DCGM

    • 英伟达容器工具包

      • 版本命令: nvidia-container-cli-V

    • nvidia-docker2

      • 版本命令:nvidia-docker 版本

  • 英伟达驱动程序

    • OSS Nvidia 驱动程序:550.163.01

    • Nvidia 专有驱动程序:550.163.01

  • NVIDIA CUDA 11.7、12.1-12.4 堆栈

    • CUDA、NCCL 和 cudDN 安装目录:/-xx.x/ usr/local/cuda

      • 示例:/usr/local/cuda-12.1/

    • 已编译的 NCCL 版本:2.22.3+ .4 CUDA12

    • 默认 CUDA:12.1

      • 路径/ usr/local/cuda 指向 CUDA 12.1

      • 在环境变量下方更新:

        • LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • 拥有路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

    • NCCL 考试地点:

      • all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • 要运行 NCCL 测试,LD_LIBRARY_PATH 需要通过以下更新。

        • 已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

  • EFA 安装程序:1.39.0

  • 英伟达 GDRCopy:2.4

  • Amazon OFI NCCL 插件:作为 EFA Installer-Amazon 的一部分安装

    • Amazon OFI NCCL 现在支持单一版本的多个 NCCL 版本

    • 安装路径:/已添加到 LD_L opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib IBRARY_PATH。

    • 测试响铃的路径,消息传输:/opt/aws-ofi-nccl/tests

  • EBS 卷类型:gp3

  • Python:/usr/bin/python3.9

  • NVMe 实例存储位置(在支持的 EC2 实例上):/opt/dlami/nvme

  • 使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):

    • OSS 英伟达驱动程序:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
    • 专有的英伟达驱动程序:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • 使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):

    • OSS 英伟达驱动程序:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • 专有的英伟达驱动程序:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

版权声明

NVIDIA 容器工具包 1.17.4

在 Container Toolkit 版本 1.17.4 中,现已禁用 CUDA 兼容库的挂载。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。

从 1.37 到 1.38 的 EFA 更新(2025-02-04 发布)

EFA 现在捆绑了 Amazon OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

Support 政策

此 AMI 的组件(如 CUDA 版本)可能会根据框架支持政策进行删除和更改,或者为了优化深度学习容器的性能或在未来的版本中缩小 AMI 大小,恕不另行通知。 AMIs 如果 CUDA 版本未被任何支持的框架版本使用,我们会将其从中删除。

EC2 带有多个网卡的实例
  • 许多支持 EFA 的实例类型也有多个网卡。

  • DeviceIndex 对于每个网卡来说都是唯一的,并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上,p ENIs er 的数量 NetworkCard 为 2,这意味着的唯一有效值 DeviceIndex 是 0 或 1。

    • 对于主网络接口(网卡索引 0,设备索引 0),创建 EFA(带有 ENA 的 EFA)接口。您不能使用仅限 EFA 的网络接口作为主网络接口。

    • 对于每个额外的网络接口,请使用下一个未使用的网卡索引,即设备索引 1,以及 EFA(带有 ENA 的 EFA)或仅限 EFA 的网络接口,具体取决于您的用例,例如 ENA 带宽要求或 IP 地址空间。有关示例用例,请参阅 P5 实例的 EFA 配置。

    • 有关更多信息,请参阅此处的 EFA 指南。

p5/p5e 实例
  • P5 和 P5e 实例包含 32 个网络接口卡,可以使用以下命令启动: Amazon CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 实例
  • P5en 包含 16 个网络接口卡,可使用以下 Amazon CLI 命令启动:

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
  • 使用以下命令固定内核版本:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • 我们建议用户避免更新其内核版本(除非有安全补丁),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍想更新,可以运行以下命令来取消固定其内核版本:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • 对于每个新版本的 DLAMI,都使用最新可用的兼容内核。

发布日期:2025-04-24

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20250424

已更新
  • 将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版,以解决 2025 年 4 月 NVIDIA G PU CVEs 显示驱动程序安全公告中提到的问题

发布日期:2025-02-17

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250214

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20250214

已更新
  • 将 NVIDIA 容器工具包从版本 1.17.3 更新到 1.17.4 版

已删除

发布日期:2025-02-04

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20250204

已更新
  • 将 EFA 版本从 1.37.0 升级到 1.38.0

    • EFA 现在捆绑了 Amazon OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

已删除

发布日期:2025-01-17

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20250117

已更新
  • 将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G PU CVEs 显示器驱动程序安全公告中提到的问题

发布日期:2024-12-09

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20241206

已更新
  • 将 Nvidia 容器工具包从 1.17.0 版升级到 1.17.3 版

发布日期:2024-11-22

AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122

新增了
  • 增加了对 P5en 实例 EC2 的支持。

已更新
  • 将 EFA 安装程序从版本 1.35.0 升级到 1.37.0

  • 将 Amazon OFI NCCL 插件从 1.12.1-aws 版本升级到 1.13.0-aws

发布日期:2024-10-26

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20241025

已更新

发布日期:2024-10-03

AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927

已更新
  • 将 Nvidia 容器工具包从版本 1.16.1 升级到 1.16.2

发布日期:2024-08-27

AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827

已更新
  • 将 Nvidia 驱动程序和 Fabric Manager 从 535.183.01 版本升级到 550.90.07

  • 将 EFA 版本从 1.32.0 升级到 1.34.0

  • 已将所有 CUDA 版本的 NCCL 升级到最新版本 2.22.3

    • CUDA 11.7 已从 2.16.2+ 版本升级 .7 CUDA11

    • CUDA 12.1、12.2 从 2.18.5+ 升级 .2 CUDA12

    • CUDA 12.3 从 2.21.5+ 版本升级 .4 CUDA12

新增了
  • 在目录中添加了 CUDA 工具包 12.4 版本 /-12.4 usr/local/cuda

  • 增加了对 P5e 实例 EC2 的支持。

已删除
  • 移除了目录中存在的 CUDA Toolkit 版本 11.8 堆栈 /-11.8 usr/local/cuda

发布日期:2024-08-19

AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816

新增了

发布日期:2024-06-06

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240606

已更新
  • 将 Nvidia 驱动程序版本从 535.161.08 更新到 535.183.01

发布日期:2024-05-15

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240515

新增了
  • 在/usr/local/cuda-11 CUDA11 .7 目录中添加了 .7 堆栈,其中有 .7、NCCL 2.16 CUDA11 .2、cudnn 8.7.0,因为 1.13 支持 .7 PyTorch CUDA11

发布日期:2024-05-02

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240502

已更新
新增了
  • 添加了 CUDA12 .3 堆栈,包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7

已删除

发布日期:2024-04-04

AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404

新增了
  • 对于 OSS Nvidia 驱动程序 DLAMIs,添加了 G6 和 Gr6 EC2 实例支持。有关更多信息,请参阅推荐的 GPU 实例

发布日期:2024-03-29

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240326

已更新
  • 在专有和 OSS Nvidia 驱动程序中,将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs

  • 从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5 EC2 实例支持。

  • 每个 DLAMI 支持的新实例如下:

    • 使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn

    • 使用 OSS 进行深度学习 Nvidia Driver 支持 g4dn、G5、p4d、p4de、P5。

发布日期:2024-03-20

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240318

新增了
  • 在 AMI awscliv2 中添加awscliv1为/usr/local/bin/aws2,在专有和 OSS Nvidia 驱动程序 AMI usr/bin/aws 上添加为/

发布日期:2024-03-14

AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314

已更新
  • 更新了 OSS Nvidia 驱动程序 DLAMI,支持 G4dN 和 G5,基于该驱动程序,目前的支持如下所示:

    • 深度学习基础专有的 Nvidia 驱动程序 AMI(Ubuntu 20.04)支持 P3、p3dn、G3、G5、g4dn。

    • 深度学习基础 OSS Nvidia Driver AMI (Ubuntu 20.04) 支持 G5、g4dN、P4、P5。

  • 建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G5、G4dN、P4、P5。

发布日期:2024-02-12

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240208

已更新
  • Amazon OFI NCCL 插件已从 1.7.3 更新到 1.7.4

发布日期:2024-02-01

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240201

安全性

发布日期:2023-12-04

AMI 的名字
  • 深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20231204

新增了
  • Amazon 深度学习 AMI (DLAMI) 分为两个独立的组:

    • 使用 Nvidia 专有驱动程序(支持 P3、p3dn、G3、G5、g4dN)的 DLAMI。

    • 使用 Nvidia OSS 驱动程序启用 EFA(支持 P4、P5)的 DLAMI。

  • 有关 DLAMI拆分的更多信息,请参阅DLAMI的重要更改

  • Amazon CLI 上面的查询位于要点查询 AMI-ID 下 AWSCLI (示例区域为 us-east-1

已更新
  • EFA 从 1.26.1 更新到 1.29.0

  • GDRCopy 已从 2.3 更新到 2.4

发布日期:2023-10-18

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20231018

已更新
  • Amazon OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版

  • 使用 NCCL 版本 2.18.5 更新了 CUDA 12.0-12.1 目录以匹配 CUDA 12.2

  • CUDA12.1 已更新为默认 CUDA 版本

    • 将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • 对于想要更改为任何不同的 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。

发布日期:2023-10-02

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20231002

已更新
  • NVIDIA 驱动程序从 535.54.03 更新到 535.104.12

    • 这个最新的驱动程序修复了驱动程序版本 535.54.03 中发现的 NVML ABI 重大更改,以及版本535.86.10中发现的影响P5实例上CUDA工具包的驱动程序回归问题。有关修复的详细信息,请参阅以下 NVIDIA 发行说明:

    • 有关修复的详细信息,请参阅以下 NVIDIA 发行说明:

      • 423594 1-NVML ABI 重大更改修复

      • 422855 2-CUDA 工具包错误修复

  • 使用 NCCL 2.18.5 更新了 CUDA 12.2 目录

  • EFA 已从版本 1.24.1 更新到最新的 1.26.1

新增了
  • 在/usr/local/cuda- CUDA12 12.2 处添加了 .2

已删除
  • 移除了对 CUDA 11.5 和 CUDA 11.6 的支持

发布日期:2023-09-26

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230926

新增了
  • 添加了 net.naming-scheme 更改,以修复 P5 上出现的不可预测的网络接口命名问题(链接)。此更改是通过在文件的 linux 启动参数中设置 net.naming-scheme=v247 来完成的/etc/default/grub

发布日期:2023-08-30

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230830

已更新
  • 将 aws-ofi-nccl插件从 1.7.1 版本更新到 v1.7.2

发布日期:2023-08-11

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230811

新增了
  • 此 AMI 现在支持 P5 和以前 EC2 支持的所有实例上的多节点训练功能。

  • EC2 例如 P5,建议使用 NCCL 2.18,该版本已添加到 CUDA12 .0 和 .1 中。 CUDA12

已删除
  • 移除了对 CUDA11 .3 和 CUDA11 .4 的支持。

发布日期:2023-08-04

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230804

已更新
  • 将 Amazon OFI NCCL 插件更新到 v1.7.1

  • 将 CUDA11 .8 设为默认 PyTorch 2.0 支持 11.8,对于 P5 EC2 实例,建议使用 >= .8 CUDA11

    • 将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • 对于任何不同的 cuda 版本,请相应地定义 LD_LIBRARY_PATH。

  • 使用 NCCL 2.18.3 更新了 CUDA 12.0、12.1 目录

Fixed
  • 修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager (FM) 软件包加载问题。

发布日期:2023-07-19

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230719

已更新
  • EFA 已从 1.22.1 更新到 1.24.1

  • Nvidia 驱动程序从 525.85.12 更新到 535.54.03

新增了
  • 添加了 c 状态更改,通过将最大 c 状态设置为 C1 来禁用处理器的空闲状态。此更改是通过在文件/的 linux 启动参数中设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 来实现的 etc/default/grub

  • Amazon EC2 P5 实例支持:

    • 为使用单节点/ EC2 实例的工作流程添加了 P5 实例支持。在即将发布的版本中,将添加使用 EFA(弹性结构适配器)和 Amazon OFI NCCL 插件的多节点支持(例如用于多节点训练)。

    • 请使用 CUDA>=11.8 以获得最佳性能。

    • 已知问题:Nvidia Fabric Manager (FM) 软件包在 P5 上加载需要时间,客户在启动 P5 实例后需要等待 2-3 分钟才能加载 FM。要检查 FM 是否已启动,请运行命令 sudo systemctl is-active nvidia-fabricmanager,它应该在开始任何工作流程之前恢复活动状态。这将在即将发布的版本中得到改进。

发布日期:2023-05-19

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230519

已更新
  • EFA 已更新至最新版本 1.22.1

  • 将 CUDA 12.1 的 NCCL 版本更新为 2.17.1

新增了
  • 在/usr/local/cuda- CUDA12 12.1 处添加了 .1

  • 通过该软件包增加了对 NVIDIA 数据中心 GPU 监视器 (DCGM) 的 datacenter-gpu-manager支持

    • 你可以通过以下查询来查看此服务的状态:sudo systemctl status nvidia-dcgm

  • 临时 NVMe 实例存储现在会自动挂载到支持的 EC2 实例,并且可以在文件夹//中访问存储。opt/dlami/nvme您可以通过以下方式检查或修改此服务:

    • 检查 NVMe 服务状态:sudo systemctl status dlami-nvme

    • 要访问或修改服务,请执行以下操作:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh

  • NVMe volumes 为需要 IOPS 性能的高吞吐量工作流程提供了最快、最高效的存储解决方案。实例费用中包含临时 NVMe 实例存储,因此此服务不会产生额外费用。

  • NVMe 实例存储将仅安装在支持它们的 EC2 实例上。有关 NVMe 支持 EC2 实例存储的实例的信息,请参阅可用实例存储卷并验证 NVMe 是否受支持。

  • 为了提高磁盘性能并减少首次写入的损失,您可以初始化实例存储(注意,此过程可能需要几个小时,具体取决于 EC2 实例类型)-初始化实例上的 EC2 实例存储卷

  • 注意: NVMe 实例存储挂载在实例上,不像 EBS 那样连接到网络。在您的实例重启或停止时,这些 NVMe 卷上的数据可能会丢失。

发布日期:2023-04-17

AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230414

已更新
  • 将 DLAMI 名称 Amazon 从深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} 更新为深度学习基础 GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}

    • 请注意,从本版本起,我们将为使用旧 AMI 名称的最新 DLAMI 提供一个月的支持,以获得所需的任何支持。客户可以更新其操作系统包 apt-get update && apt-get upgrade 以使用安全补丁。

  • 从 /- Amazon ofi-nccl/ 更新了 OFI NCCL 插件路径 usr/local/cuda-xx.x/efa/ to /opt/aws

  • 将 NCCL 更新为 v2.16.2 的自定义 GIT 分支,该分支由 NCCL Amazon 和 NCCL 团队共同撰写,适用于所有 CUDA 版本。它在 Amazon 基础架构上的表现更好。

新增了
  • 在/usr/local/cuda- CUDA12 12.0 处添加了 .0

  • 新增了 Amazon FSx

  • /usr/bin/python3.9 中增加了对 Python 3.9 版本的支持

    • 请注意,此更改并不能取代默认的系统 Python,python3 仍将指向系统 Python3.8。

    • 可以使用以下命令访问 Python3.9:

      /usr/bin/python3.9 python3.9
已删除

发布日期:2022-05-25

AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220523

已更新
  • 此版本增加了对新 EC2 实例 p4de.24xlarge 的支持。

    • 已更新 aws-efa-installer至 1.15.2 版本

    • 已更新 aws-ofi-nccl至 1.3.0-aws 版本,其中包含 p4de.24xlarge 的拓扑。

发布日期:2022-03-25

AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220325

已更新
  • 将 EFA 版本从 1.15.0 更新到 1.15.1

发布日期:2022-03-17

AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220323

新增了
  • 首次发布