本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon深度学习基础 GPU AMI (Ubuntu 20.04)
终止支持通知
Ubuntu Linux 20.04 LTS 于 2025 年 5 月 31 日到达其五年长期支持(LTS)窗口的终点,此后将不再获得其供应商的支持。因此,Amazon深度学习基础GPU AMI(Ubuntu 20.04)将在2025年5月31日之后没有更新。先前的版本将继续可用。请注意,任何公开发布的 AMI 都将在其创建之日起 2 年 EC2 后被弃用。有关更多信息,请参阅弃用 Amazon EC2 AMI。
自该日到 2025 年 8 月 31 日的三个月内,仅针对功能性问题提供支持(不提供安全补丁)。
Ubuntu 20.04 DLAMI 的用户应迁移到 Amazon Deep Learning Base GPU AMI(Ubuntu 22.04)
或 Amazon Deep Learning Base GPU AMI(Ubuntu 24.04) 。或者,可以使用 Amazon Deep Learning Base AMI(Amazon Linux 2023) 。
有关入门帮助,请参阅 DLAMI 入门。
AMI 名称格式
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)${YYYY-MM-DD}
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)${YYYY-MM-DD}
支持的 EC2 实例
请参阅 DLAMI 的重要更改。
采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en
采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3(不支持 G3.16x)、P3、P3dn
该 AMI 包含以下内容:
支持的Amazon服务:Amazon EC2
操作系统:Ubuntu 20.04
计算架构:x86
已为以下软件包安装了最新的可用版本:
Linux 内核 5.15
FSx Lustre
Docker
Amazon CLI v2 位于/usr/local/bin/aws2 和 Amazon CLI v1 位于/usr/bin/aws
NVIDIA DCGM
Nvidia Container Toolkit:
版本命令: nvidia-container-cli-V
Nvidia-docker2:
版本命令:nvidia-docker 版本
NVIDIA Driver:
OSS Nvidia 驱动程序:550.163.01
Proprietary Nvidia Driver:550.163.01
NVIDIA CUDA 11.7、12.1-12.4 堆栈:
CUDA、NCCL 和 cudDN 安装目录:/-xx.x/ usr/local/cuda
示例:/usr/local/cuda-12.1/
已编译的 NCCL 版本:2.22.3+ .4 CUDA12
默认 CUDA:12.1
路径/ usr/local/cuda 指向 CUDA 12.1
更新以下环境变量:
LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
拥有路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
NCCL 测试位置:
all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
要运行 NCCL 测试,需要传递包含以下更新的 LD_LIBRARY_PATH。
已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
EFA 安装程序:1.39.0
英伟达 GDRCopy:2.4
Amazon OFI NCCL 插件:作为 EFA Installer-Amazon 的一部分安装
Amazon OFI NCCL 现在支持单一版本的多个 NCCL 版本
安装路径:/已添加到 LD_L opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib IBRARY_PATH。
测试响铃的路径,消息传输:/opt/aws-ofi-nccl/tests
EBS 卷类型:gp3
Python:/usr/bin/python3.9
NVMe 实例存储位置(在支持的 EC2 实例上):/opt/dlami/nvme
使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):
OSS Nvidia Driver:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textProprietary Nvidia Driver:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):
OSS Nvidia Driver:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textProprietary Nvidia Driver:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
通知
NVIDIA Container Toolkit 1.17.4
在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。
EFA 版本从 1.37 更新为 1.38(2025-02-04 发布)
EFA 现在捆绑了Amazon OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
Support 政策
此 AMI 的组件(如 CUDA 版本)可能在未来版本中基于框架支持策略或为了优化深度学习容器
EC2 带有多个网卡的实例
许多支持 EFA 的实例类型也有多个网卡。
DeviceIndex 对于每个网卡来说都是唯一的,并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上,p ENIs er 的数量 NetworkCard 为 2,这意味着的唯一有效值 DeviceIndex 是 0 或 1。
对于主网络接口(网卡索引 0、设备索引 0),创建一个 EFA(兼具 ENA 功能的 EFA)接口。您不能使用仅限 EFA 的网络接口作为主网络接口。
对于每个附加的网络接口,请使用下一个未使用的网卡索引、设备索引 1 以及 EFA(兼具 ENA 功能的 EFA)或仅 EFA 的网络接口,具体取决于您的使用案例,例如 ENA 带宽要求或 IP 地址空间。有关使用案例示例,请参阅 P5 实例的 EFA 配置。
有关更多信息,请参阅此处的《EFA 指南》。
P5/P5e 实例
P5 和 P5e 实例包含 32 个网络接口卡,可以使用以下命令启动:Amazon CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 实例
P5en 包含 16 个网络接口卡,可使用以下Amazon CLI命令启动:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
使用以下命令固定内核版本:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections我们建议用户避免更新其内核版本(除非为了安全修补原因),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍希望更新,则可以运行以下命令来取消固定内核版本:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections对于每个新版本的 DLAMI,使用最新可用的兼容内核。
发布日期:2025-04-24
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20250424
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20250424
已更新
将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版,以解决 2025 年 4 月 NVIDIA G
PU CVEs 显示器驱动程序安全公告中提到的问题
发布日期:2025-02-17
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20250214
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20250214
已更新
NVIDIA Container Toolkit 版本从 1.17.3 更新为 1.17.4
有关更多信息,请参阅此处的发行说明页面:https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.
4 在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。
已删除
删除了 NV IDIA CUDA 工具包提供的用户空间库 cuobj 和 nvd
isasm,以解决在 2025 年 2 月 18 日的 NVIDIA CUDA 工具包安全 公告中 CVEs 出现的问题
发布日期:2025-02-04
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20250204
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20250204
已更新
EFA 版本从 1.37.0 升级到 1.38.0
EFA 现在捆绑了Amazon OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
已删除
emacs 软件包已从这些 DLAMIs软件包中删除。客户可以从 GNU emacs 中安装 emacs。https://www.gnu.org/software/emacs/download.html
发布日期:2025-01-17
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20250117
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20250117
已更新
将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G
PU CVEs 显示器驱动程序安全公告中提到的问题
发布日期:2024-12-09
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20241206
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20241206
已更新
Nvidia Container Toolkit 版本从 1.17.0 升级到 1.17.3
发布日期:2024-11-22
AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20241122
新增了
增加了对 P5en 实例 EC2 的支持。
已更新
EFA 安装程序版本从 1.35.0 升级到 1.37.0
将Amazon OFI NCCL 插件从 1.12.1-aws 版本升级到 1.13.0-aws
发布日期:2024-10-26
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20241025
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20241025
已更新
发布日期:2024-10-03
AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240927
已更新
Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2
发布日期:2024-08-27
AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240827
已更新
Nvidia 驱动程序和 Fabric Manager 版本从 535.183.01 升级到 550.90.07
EFA 版本从 1.32.0 升级到 1.34.0
针对所有 CUDA 版本将 NCCL 升级到最新版本 2.22.3
CUDA 11.7 已从 2.16.2+ 版本升级 .7 CUDA11
CUDA 12.1、12.2 从 2.18.5+ 升级 .2 CUDA12
CUDA 12.3 从 2.21.5+ 版本升级 .4 CUDA12
新增了
在目录中添加了 CUDA 工具包 12.4 版本 /-12.4 usr/local/cuda
增加了对 P5e 实例 EC2 的支持。
已删除
移除了目录中存在的 CUDA Toolkit 版本 11.8 堆栈 /-11.8 usr/local/cuda
发布日期:2024-08-19
AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240816
新增了
增加了对 G6e 实例 EC2
的支持。
发布日期:2024-06-06
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240606
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240606
已更新
Nvidia 驱动程序版本从 535.183.01 更新为 535.161.08
发布日期:2024-05-15
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240515
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240515
新增了
在/usr/local/cuda-11 CUDA11 .7 目录中添加了 .7 堆栈,其中有 .7、NCCL 2.16 CUDA11 .2、cudnn 8.7.0,因为 1.13 支持 .7 PyTorch CUDA11
发布日期:2024-05-02
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240502
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240502
已更新
EFA 版本从 1.30 更新为 1.32
将Amazon OFI NCCL 插件从 1.7.4 版更新到 1.9.1 版
Nvidia Container Toolkit 版本从 1.13.5 更新为 1.15.0
版本 1.15.0 不包括 nvidia-container-runtime和 nvidia-docker2 软件包。建议按照 Nvidia 容器工具 nvidia-container-toolkit包文档直接使用软件包
。
新增了
添加了 CUDA12 .3 堆栈,包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7
已删除
移除了 CUDA11 /-12 CUDA12 .0 目录中存在的 .7、.0 堆栈 usr/local/cuda-11.7 and /usr/local/cuda
作为从 1.13.5 到 1.15.0 的 Nvidia 容器工具包更新的一部分,删除了 nvidia-docker2 软件包及其命令 nvidia-docker,其中不包括和 nvidia-docker2 软件包。
nvidia-container-runtime
发布日期:2024-04-04
AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240404
新增了
对于 OSS Nvidia 驱动程序 DLAMIs,添加了 G6 和 Gr6 EC2 实例支持。有关更多信息,请参阅推荐的 GPU 实例。
发布日期:2024-03-29
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240326
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240326
已更新
在专有和 OSS Nvidia 驱动程序中,将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs
从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5 EC2 实例支持。
每个 DLAMI 支持的新实例如下:
采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3(不支持 G3.16x)、P3、P3dn
采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、P4d、P4de、P5。
发布日期:2024-03-20
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240318
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240318
新增了
在 AMI
awscliv2中添加awscliv1为/usr/local/bin/aws2,在专有和 OSS Nvidia 驱动程序 AMI usr/bin/aws 上添加为/
发布日期:2024-03-14
AMI 名称:Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240314
已更新
更新了 OSS Nvidia Driver DLAMI,支持 G4dn 和 G5,更新后的当前支持如下:
Deep Learning Base Proprietary Nvidia Driver AMI(Ubuntu 20.04)支持 P3、P3dn、G3、G5、G4dn。
Deep Learning Base OSS Nvidia Driver AMI(Ubuntu 20.04)支持 G5、G4dn、P4、P5。
建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G5、G4dN、P4、P5。
发布日期:2024-02-12
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240208
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240208
已更新
Amazon OFI NCCL 插件已从 1.7.3 更新到 1.7.4
发布日期:2024-02-01
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20240201
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20240201
安全性
更新了 runc 包版本以使用针对 CVE-2024-21626
的补丁。
发布日期:2023-12-04
AMI 名称
Deep Learning Base OSS Nvidia Driver GPU AMI(Ubuntu 20.04)20231204
Deep Learning Base Proprietary Nvidia Driver GPU AMI(Ubuntu 20.04)20231204
新增了
Amazon深度学习 AMI (DLAMI) 分为两个独立的组:
使用 Nvidia Proprietary Driver 的 DLAMI(以支持 P3、P3dn、G3、G5、G4dn)。
使用 Nvidia OSS Driver 以启用 EFA 的 DLAMI(以支持 P4、P5)。
有关 DLAMI 拆分的更多信息,请参阅 DLAMI 的重要更改。
Amazon CLI上面的查询位于要点查询 AMI-ID 下 AWSCLI (示例区域为 us-east-1)
已更新
EFA 版本从 1.26.1 更新为 1.29.0
GDRCopy 已从 2.3 更新到 2.4
发布日期:2023-10-18
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20231018
已更新
Amazon OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版
CUDA 12.0-12.1 目录中的 NCCL 版本更新为 2.18.5 以与 CUDA 12.2 环境保持一致
CUDA12.1 已更新为默认 CUDA 版本
将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
对于想要切换到任何不同 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。
发布日期:2023-10-02
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20231002
已更新
NVIDIA Driver 版本从 535.54.03 更新为 535.104.12
将 CUDA 12.2 目录下的 NCCL 版本更新为 2.18.5
EFA 版本从 1.24.1 更新为最新的 1.26.1
新增了
在/usr/local/cuda- CUDA12 12.2 处添加了 .2
已删除
移除了对 CUDA 11.5 和 CUDA 11.6 的支持
发布日期:2023-09-26
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230926
新增了
增加了 net.naming-scheme 变更,以修复 P5 上出现的不可预测的网络接口命名问题(链接
)。此更改是通过在文件的 linux 启动参数中设置 net.naming-scheme=v247 来完成的/etc/default/grub
发布日期:2023-08-30
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230830
已更新
将 aws-ofi-nccl插件从 1.7.1 版本更新到 1.7.2 版本
发布日期:2023-08-11
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230811
新增了
此 AMI 现在支持 P5 和以前 EC2 支持的所有实例上的多节点训练功能。
EC2 例如 P5,建议使用 NCCL 2.18,该版本已添加到 CUDA12 .0 和 .1 中。 CUDA12
已删除
移除了对 CUDA11 .3 和 CUDA11 .4 的支持。
发布日期:2023-08-04
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230804
已更新
将Amazon OFI NCCL 插件更新到 v1.7.1
将 CUDA11 .8 设为默认 PyTorch 2.0 支持 11.8,对于 P5 EC2 实例,建议使用 >= .8 CUDA11
将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
对于任何不同的 cuda 版本,请相应地定义 LD_LIBRARY_PATH。
将 CUDA 12.0、12.1 目录下的 NCCL 版本更新为 2.18.3
Fixed
修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager(FM)软件包加载问题。
发布日期:2023-07-19
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230719
已更新
EFA 版本从 1.22.1 更新为 1.24.1
NVIDIA 驱动程序版本从 525.85.12 更新为 535.54.03
新增了
通过将 max c-state 设置为 C1,增加了 c-state 变更以禁用处理器的空闲状态。此更改是通过在文件/的 linux 启动参数中设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 来实现的 etc/default/grub
Amazon EC2 P5 实例支持:
为使用单节点/ EC2 实例的工作流程添加了 P5 实例支持。在即将发布的版本中,将添加使用 EFA(弹性结构适配器)和Amazon OFI NCCL 插件的多节点支持(例如用于多节点训练)。
请使用 CUDA>=11.8 以获得最佳性能。
已知问题:Nvidia Fabric Manager(FM)软件包在 P5 上加载时间较长,客户在启动 P5 实例后需要等待 2-3 分钟才能加载 FM。要检查 FM 是否已启动,请运行命令 sudo systemctl is-active nvidia-fabricmanager,在开始任何工作流之前,该命令应该返回 active 状态。将在未来的版本中修复该问题。
发布日期:2023-05-19
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230519
已更新
EFA 更新到最新版本 1.22.1
将 CUDA 12.1 环境下的 NCCL 版本更新为 2.17.1
新增了
在/usr/local/cuda- CUDA12 12.1 处添加了 .1
通过该软件包增加了对 NVIDIA 数据中心 GPU 监视器 (DCGM)
的 datacenter-gpu-manager支持 您可以通过以下查询来查看此服务的状态:sudo systemctl status nvidia-dcgm
临时 NVMe 实例存储现在会自动挂载到支持的 EC2 实例,并且可以在文件夹//中访问存储。opt/dlami/nvme您可以通过下列方式来检查或修改此服务:
检查 NVMe 服务状态:sudo systemctl status dlami-nvme
要访问或修改服务,请执行以下操作:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe volumes 为需要 IOPS 性能的高吞吐量工作流程提供了最快、最高效的存储解决方案。实例费用中包含临时 NVMe 实例存储,因此此服务不会产生额外费用。
NVMe 只有支持实例存储的 EC2 实例上才会挂载实例存储。有关 NVMe 支持 EC2 实例存储的实例的信息,请参阅可用实例存储卷并验证 NVMe 是否受支持。
为了提高磁盘性能并减少首次写入的损失,您可以初始化实例存储(注意,此过程可能需要几个小时,具体取决于 EC2 实例类型)-初始化实例上的 EC2 实例存储卷
注意: NVMe 实例存储挂载在实例上,不像 EBS 那样连接到网络。在您的实例重启或停止时,这些 NVMe 卷上的数据可能会丢失。
发布日期:2023-04-17
AMI 名称:Deep Learning Base GPU AMI(Ubuntu 20.04)20230414
已更新
将 DLAMI 名称Amazon从深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} 更新为深度学习基础 GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
请注意,自本次发布起,我们将在一个月内继续使用旧的 AMI 名称来支持最新的 DLAMI,以应对任何所需的支持。客户可以更新其操作系统包 apt-get update && apt-get upgrade 以使用安全补丁。
从 /-Amazon ofi-nccl/ 更新了 OFI NCCL 插件路径 usr/local/cuda-xx.x/efa/ to /opt/aws
将 NCCL 更新为 v2.16.2 的自定义 GIT 分支
,该分支由 NCCL Amazon和 NCCL 团队共同撰写,适用于所有 CUDA 版本。它在Amazon基础架构上的表现更好。
新增了
在/usr/local/cuda- CUDA12 12.0 处添加了 .0
添加了 Amazon FSx
在 /3.9 版本中增加了对 Python 3. usr/bin/python 9 版本的支持
请注意,此更改并不会替换默认的系统 Python,python3 仍然指向系统 Python3.8。
可以使用以下命令访问 Python3.9:
/usr/bin/python3.9 python3.9
已删除
发布日期:2022-05-25
AMI 名称:Amazon深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
已更新
此版本增加了对新 EC2 实例 p4de.24xlarge 的支持。
已更新 aws-efa-installer至 1.15.2 版本
已更新 aws-ofi-nccl至 1.3.0-aws 版本,其中包含 p4de.24xlarge 的拓扑。
发布日期:2022-03-25
AMI 名称:Amazon深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
已更新
EFA 版本从 1.15.0 更新为 1.15.1
发布日期:2022-03-17
AMI 名称:Amazon深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
新增了
初始版本