本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon 深度学习基础 GPU AMI (Ubuntu 20.04)
Out of Support 通知
Ubuntu Linux 20.04 LTS将于2025年5月31日结束其为期五年的LTS窗口,并且将不再得到其供应商的支持。 因此, Amazon 深度学习基础GPU AMI(Ubuntu 20.04)将在2025年5月31日之后没有更新。先前的版本将继续可用。请注意,任何公开发布的 AMI 都将在其创建之日起 2 年 EC2 后被弃用。有关更多信息,请参阅弃用 Amazon EC2 AMI。
在 3 个月内,直到 2025 年 8 月 31 日,将仅为功能问题(不提供安全补丁)提供支持。
Ubuntu 20.04 DLAMI 的用户应改用深度学习基础 GPU AMI(Ubuntu 22.04)或AmazonAmazon 深
度学习基础 GPU AMI(Ubuntu 24.04) 。或者,也可以使用Amazon 深度学习基础 AMI(亚马逊 Linux 2023) 。
如需入门帮助,请参阅DLAMI 入门。
AMI 名称格式
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
支持的 EC2 实例
请参阅 DLAMI 的重要更改。
使用 OSS 进行深度学习 Nvidia Driver 支持 G4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5e、p5eN
使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn
AMI 包括以下内容:
支持的 Amazon 服务:Amazon EC2
操作系统:Ubuntu 20.04
计算架构:x86
以下软件包已安装最新可用版本:
Linux 内核 5.15
FSx Lustre
Docker
Amazon CLI v2 位于/usr/local/bin/aws2 和 Amazon CLI v1 位于/usr/bin/aws
英伟达 DCGM
英伟达容器工具包:
版本命令: nvidia-container-cli-V
nvidia-docker2:
版本命令:nvidia-docker 版本
英伟达驱动程序:
OSS Nvidia 驱动程序:550.163.01
Nvidia 专有驱动程序:550.163.01
NVIDIA CUDA 11.7、12.1-12.4 堆栈:
CUDA、NCCL 和 cudDN 安装目录:/-xx.x/ usr/local/cuda
示例:/usr/local/cuda-12.1/
已编译的 NCCL 版本:2.22.3+ .4 CUDA12
默认 CUDA:12.1
路径/ usr/local/cuda 指向 CUDA 12.1
在环境变量下方更新:
LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
拥有路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
NCCL 考试地点:
all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
要运行 NCCL 测试,LD_LIBRARY_PATH 需要通过以下更新。
已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
EFA 安装程序:1.39.0
英伟达 GDRCopy:2.4
Amazon OFI NCCL 插件:作为 EFA Installer-Amazon 的一部分安装
Amazon OFI NCCL 现在支持单一版本的多个 NCCL 版本
安装路径:/已添加到 LD_L opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib IBRARY_PATH。
测试响铃的路径,消息传输:/opt/aws-ofi-nccl/tests
EBS 卷类型:gp3
Python:/usr/bin/python3.9
NVMe 实例存储位置(在支持的 EC2 实例上):/opt/dlami/nvme
使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):
OSS 英伟达驱动程序:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text专有的英伟达驱动程序:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):
OSS 英伟达驱动程序:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text专有的英伟达驱动程序:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
版权声明
NVIDIA 容器工具包 1.17.4
在 Container Toolkit 版本 1.17.4 中,现已禁用 CUDA 兼容库的挂载。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。
从 1.37 到 1.38 的 EFA 更新(2025-02-04 发布)
EFA 现在捆绑了 Amazon OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
Support 政策
此 AMI 的组件(如 CUDA 版本)可能会根据框架支持政策进行删除和更改,或者为了优化深度学习容器的
EC2 带有多个网卡的实例
许多支持 EFA 的实例类型也有多个网卡。
DeviceIndex 对于每个网卡来说都是唯一的,并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上,p ENIs er 的数量 NetworkCard 为 2,这意味着的唯一有效值 DeviceIndex 是 0 或 1。
对于主网络接口(网卡索引 0,设备索引 0),创建 EFA(带有 ENA 的 EFA)接口。您不能使用仅限 EFA 的网络接口作为主网络接口。
对于每个额外的网络接口,请使用下一个未使用的网卡索引,即设备索引 1,以及 EFA(带有 ENA 的 EFA)或仅限 EFA 的网络接口,具体取决于您的用例,例如 ENA 带宽要求或 IP 地址空间。有关示例用例,请参阅 P5 实例的 EFA 配置。
有关更多信息,请参阅此处的 EFA 指南。
p5/p5e 实例
P5 和 P5e 实例包含 32 个网络接口卡,可以使用以下命令启动: Amazon CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 实例
P5en 包含 16 个网络接口卡,可使用以下 Amazon CLI 命令启动:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
使用以下命令固定内核版本:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
我们建议用户避免更新其内核版本(除非有安全补丁),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍想更新,可以运行以下命令来取消固定其内核版本:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
对于每个新版本的 DLAMI,都使用最新可用的兼容内核。
发布日期:2025-04-24
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20250424
已更新
将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版,以解决 2025 年 4 月 NVIDIA G
PU CVEs 显示驱动程序安全公告中提到的问题
发布日期:2025-02-17
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250214
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20250214
已更新
将 NVIDIA 容器工具包从版本 1.17.3 更新到 1.17.4 版
有关更多信息,请参阅此处的发行说明页面:https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.
4 在容器工具包版本 1.17.4 中,现已禁用 CUDA 兼容库的挂载。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。
已删除
删除了 NV IDIA CUDA 工具包提供的用户空间库 cuobj 和 nvd
isasm,以解决在 2025 年 2 月 18 日的 NVIDIA CUDA 工具包安全 公告中 CVEs 出现的问题
发布日期:2025-02-04
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20250204
已更新
将 EFA 版本从 1.37.0 升级到 1.38.0
EFA 现在捆绑了 Amazon OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
已删除
emacs 软件包已从这些 DLAMIs软件包中删除。客户可以从 GNU emacs 中安装 emacs。https://www.gnu.org/software/emacs/download.html
发布日期:2025-01-17
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20250117
已更新
将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G
PU CVEs 显示器驱动程序安全公告中提到的问题
发布日期:2024-12-09
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20241206
已更新
将 Nvidia 容器工具包从 1.17.0 版升级到 1.17.3 版
发布日期:2024-11-22
AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122
新增了
增加了对 P5en 实例 EC2 的支持。
已更新
将 EFA 安装程序从版本 1.35.0 升级到 1.37.0
将 Amazon OFI NCCL 插件从 1.12.1-aws 版本升级到 1.13.0-aws
发布日期:2024-10-26
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20241025
已更新
发布日期:2024-10-03
AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927
已更新
将 Nvidia 容器工具包从版本 1.16.1 升级到 1.16.2
发布日期:2024-08-27
AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827
已更新
将 Nvidia 驱动程序和 Fabric Manager 从 535.183.01 版本升级到 550.90.07
将 EFA 版本从 1.32.0 升级到 1.34.0
已将所有 CUDA 版本的 NCCL 升级到最新版本 2.22.3
CUDA 11.7 已从 2.16.2+ 版本升级 .7 CUDA11
CUDA 12.1、12.2 从 2.18.5+ 升级 .2 CUDA12
CUDA 12.3 从 2.21.5+ 版本升级 .4 CUDA12
新增了
在目录中添加了 CUDA 工具包 12.4 版本 /-12.4 usr/local/cuda
增加了对 P5e 实例 EC2 的支持。
已删除
移除了目录中存在的 CUDA Toolkit 版本 11.8 堆栈 /-11.8 usr/local/cuda
发布日期:2024-08-19
AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816
新增了
增加了对 G6e 实例 EC2
的支持。
发布日期:2024-06-06
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240606
已更新
将 Nvidia 驱动程序版本从 535.161.08 更新到 535.183.01
发布日期:2024-05-15
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240515
新增了
在/usr/local/cuda-11 CUDA11 .7 目录中添加了 .7 堆栈,其中有 .7、NCCL 2.16 CUDA11 .2、cudnn 8.7.0,因为 1.13 支持 .7 PyTorch CUDA11
发布日期:2024-05-02
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240502
已更新
将 EFA 版本从版本 1.30 更新到版本 1.32
将 Amazon OFI NCCL 插件从 1.7.4 版更新到 1.9.1 版
将 Nvidia 容器工具包从版本 1.13.5 更新到 1.15.0 版
版本 1.15.0 不包括 nvidia-container-runtime和 nvidia-docker2 软件包。建议按照 Nvidia 容器工具 nvidia-container-toolkit包文档直接使用软件包
。
新增了
添加了 CUDA12 .3 堆栈,包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7
已删除
移除了 CUDA11 /-12 CUDA12 .0 目录中存在的 .7、.0 堆栈 usr/local/cuda-11.7 and /usr/local/cuda
作为从 1.13.5 到 1.15.0 的 Nvidia 容器工具包更新的一部分,删除了 nvidia-docker2 软件包及其命令 nvidia-docker,其中不包括和 nvidia-docker2 软件包。
nvidia-container-runtime
发布日期:2024-04-04
AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404
新增了
对于 OSS Nvidia 驱动程序 DLAMIs,添加了 G6 和 Gr6 EC2 实例支持。有关更多信息,请参阅推荐的 GPU 实例。
发布日期:2024-03-29
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240326
已更新
在专有和 OSS Nvidia 驱动程序中,将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs
从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5 EC2 实例支持。
每个 DLAMI 支持的新实例如下:
使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn
使用 OSS 进行深度学习 Nvidia Driver 支持 g4dn、G5、p4d、p4de、P5。
发布日期:2024-03-20
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240318
新增了
在 AMI
awscliv2
中添加awscliv1
为/usr/local/bin/aws2,在专有和 OSS Nvidia 驱动程序 AMI usr/bin/aws 上添加为/
发布日期:2024-03-14
AMI 名称:深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314
已更新
更新了 OSS Nvidia 驱动程序 DLAMI,支持 G4dN 和 G5,基于该驱动程序,目前的支持如下所示:
深度学习基础专有的 Nvidia 驱动程序 AMI(Ubuntu 20.04)支持 P3、p3dn、G3、G5、g4dn。
深度学习基础 OSS Nvidia Driver AMI (Ubuntu 20.04) 支持 G5、g4dN、P4、P5。
建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G5、G4dN、P4、P5。
发布日期:2024-02-12
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240208
已更新
Amazon OFI NCCL 插件已从 1.7.3 更新到 1.7.4
发布日期:2024-02-01
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20240201
安全性
发布日期:2023-12-04
AMI 的名字
深度学习基础 OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204
深度学习基础专有 Nvidia 驱动程序 GPU AMI (Ubuntu 20.04) 20231204
新增了
Amazon 深度学习 AMI (DLAMI) 分为两个独立的组:
使用 Nvidia 专有驱动程序(支持 P3、p3dn、G3、G5、g4dN)的 DLAMI。
使用 Nvidia OSS 驱动程序启用 EFA(支持 P4、P5)的 DLAMI。
Amazon CLI 上面的查询位于要点查询 AMI-ID 下 AWSCLI (示例区域为 us-east-1)
已更新
EFA 从 1.26.1 更新到 1.29.0
GDRCopy 已从 2.3 更新到 2.4
发布日期:2023-10-18
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20231018
已更新
Amazon OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版
使用 NCCL 版本 2.18.5 更新了 CUDA 12.0-12.1 目录以匹配 CUDA 12.2
CUDA12.1 已更新为默认 CUDA 版本
将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
对于想要更改为任何不同的 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。
发布日期:2023-10-02
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20231002
已更新
NVIDIA 驱动程序从 535.54.03 更新到 535.104.12
使用 NCCL 2.18.5 更新了 CUDA 12.2 目录
EFA 已从版本 1.24.1 更新到最新的 1.26.1
新增了
在/usr/local/cuda- CUDA12 12.2 处添加了 .2
已删除
移除了对 CUDA 11.5 和 CUDA 11.6 的支持
发布日期:2023-09-26
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230926
新增了
添加了 net.naming-scheme 更改,以修复 P5 上出现的不可预测的网络接口命名问题(链接
)。此更改是通过在文件的 linux 启动参数中设置 net.naming-scheme=v247 来完成的/etc/default/grub
发布日期:2023-08-30
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230830
已更新
将 aws-ofi-nccl插件从 1.7.1 版本更新到 v1.7.2
发布日期:2023-08-11
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230811
新增了
此 AMI 现在支持 P5 和以前 EC2 支持的所有实例上的多节点训练功能。
EC2 例如 P5,建议使用 NCCL 2.18,该版本已添加到 CUDA12 .0 和 .1 中。 CUDA12
已删除
移除了对 CUDA11 .3 和 CUDA11 .4 的支持。
发布日期:2023-08-04
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230804
已更新
将 Amazon OFI NCCL 插件更新到 v1.7.1
将 CUDA11 .8 设为默认 PyTorch 2.0 支持 11.8,对于 P5 EC2 实例,建议使用 >= .8 CUDA11
将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
对于任何不同的 cuda 版本,请相应地定义 LD_LIBRARY_PATH。
使用 NCCL 2.18.3 更新了 CUDA 12.0、12.1 目录
Fixed
修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager (FM) 软件包加载问题。
发布日期:2023-07-19
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230719
已更新
EFA 已从 1.22.1 更新到 1.24.1
Nvidia 驱动程序从 525.85.12 更新到 535.54.03
新增了
添加了 c 状态更改,通过将最大 c 状态设置为 C1 来禁用处理器的空闲状态。此更改是通过在文件/的 linux 启动参数中设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 来实现的 etc/default/grub
Amazon EC2 P5 实例支持:
为使用单节点/ EC2 实例的工作流程添加了 P5 实例支持。在即将发布的版本中,将添加使用 EFA(弹性结构适配器)和 Amazon OFI NCCL 插件的多节点支持(例如用于多节点训练)。
请使用 CUDA>=11.8 以获得最佳性能。
已知问题:Nvidia Fabric Manager (FM) 软件包在 P5 上加载需要时间,客户在启动 P5 实例后需要等待 2-3 分钟才能加载 FM。要检查 FM 是否已启动,请运行命令 sudo systemctl is-active nvidia-fabricmanager,它应该在开始任何工作流程之前恢复活动状态。这将在即将发布的版本中得到改进。
发布日期:2023-05-19
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230519
已更新
EFA 已更新至最新版本 1.22.1
将 CUDA 12.1 的 NCCL 版本更新为 2.17.1
新增了
在/usr/local/cuda- CUDA12 12.1 处添加了 .1
通过该软件包增加了对 NVIDIA 数据中心 GPU 监视器 (DCGM)
的 datacenter-gpu-manager支持 你可以通过以下查询来查看此服务的状态:sudo systemctl status nvidia-dcgm
临时 NVMe 实例存储现在会自动挂载到支持的 EC2 实例,并且可以在文件夹//中访问存储。opt/dlami/nvme您可以通过以下方式检查或修改此服务:
检查 NVMe 服务状态:sudo systemctl status dlami-nvme
要访问或修改服务,请执行以下操作:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe volumes 为需要 IOPS 性能的高吞吐量工作流程提供了最快、最高效的存储解决方案。实例费用中包含临时 NVMe 实例存储,因此此服务不会产生额外费用。
NVMe 实例存储将仅安装在支持它们的 EC2 实例上。有关 NVMe 支持 EC2 实例存储的实例的信息,请参阅可用实例存储卷并验证 NVMe 是否受支持。
为了提高磁盘性能并减少首次写入的损失,您可以初始化实例存储(注意,此过程可能需要几个小时,具体取决于 EC2 实例类型)-初始化实例上的 EC2 实例存储卷
注意: NVMe 实例存储挂载在实例上,不像 EBS 那样连接到网络。在您的实例重启或停止时,这些 NVMe 卷上的数据可能会丢失。
发布日期:2023-04-17
AMI 名称:深度学习基础 GPU AMI (Ubuntu 20.04) 20230414
已更新
将 DLAMI 名称 Amazon 从深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} 更新为深度学习基础 GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
请注意,从本版本起,我们将为使用旧 AMI 名称的最新 DLAMI 提供一个月的支持,以获得所需的任何支持。客户可以更新其操作系统包 apt-get update && apt-get upgrade 以使用安全补丁。
从 /- Amazon ofi-nccl/ 更新了 OFI NCCL 插件路径 usr/local/cuda-xx.x/efa/ to /opt/aws
将 NCCL 更新为 v2.16.2 的自定义 GIT 分支
,该分支由 NCCL Amazon 和 NCCL 团队共同撰写,适用于所有 CUDA 版本。它在 Amazon 基础架构上的表现更好。
新增了
在/usr/local/cuda- CUDA12 12.0 处添加了 .0
新增了 Amazon FSx
/usr/bin/python3.9 中增加了对 Python 3.9 版本的支持
请注意,此更改并不能取代默认的系统 Python,python3 仍将指向系统 Python3.8。
可以使用以下命令访问 Python3.9:
/usr/bin/python3.9 python3.9
已删除
发布日期:2022-05-25
AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
已更新
此版本增加了对新 EC2 实例 p4de.24xlarge 的支持。
已更新 aws-efa-installer至 1.15.2 版本
已更新 aws-ofi-nccl至 1.3.0-aws 版本,其中包含 p4de.24xlarge 的拓扑。
发布日期:2022-03-25
AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
已更新
将 EFA 版本从 1.15.0 更新到 1.15.1
发布日期:2022-03-17
AMI 名称: Amazon 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
新增了
首次发布