DLAMI 的重要更改 - 深度学习 AMI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

DLAMI 的重要更改

常见问题

发生了什么变化?

2023 年 11 月 15 日 Amazon Deep Learning AMI (dLAMis)将分为两个独立的小组:

  • 使用 Nvidia 专有驱动程序(支持 P3、p3dn、G3)的 DLAMI。

  • 使用 Nvidia OSS 驱动程序(支持 g4dn、G5、P4、P5)的 DLAMI。

因此,将使用新的名称和新的 AMI ID 为这两个类别分别创建新的 DLAMI。这些 DLAMI 不可互换,也就是说,来自一个组的 dLAMI 将不支持另一个组支持的实例,例如,支持 p5 的 DLAMI 将不支持 g3,反之亦然。

DLAMI fork

为什么需要进行此更改?

目前,适用于 NVIDIA GPU 的 DLAMI 包括来自 NVIDIA 的专有内核驱动程序。但是,最近,上游 Linux 内核社区接受了一项变更,该变更将专有内核驱动程序(例如 NVIDIA GPU 驱动程序)与其他内核驱动程序的通信隔离开来。此更改禁用了 P4/P5 系列实例上的 GPUDirect RDMA,这种机制允许 GPU 高效地使用 EFA 进行分布式训练。因此,dLAMis 将使用 OpenRM 驱动程序(NVIDIA 开源驱动程序),该驱动程序与开源 EFA 驱动程序相关联,以支持 g4dn、G5、P4 和 P5。但是,此 OpenRM 驱动程序不支持较旧的实例(P3、G3 等) 因此,为了确保我们继续提供支持这两种类型实例的最新、高性能和安全的DLAMI,我们将DLAMI分为两组——一组使用OpenRM驱动程序(支持G4dn、G5、P4和P5),另一组使用较旧的专有驱动程序(支持较旧的实例 P3、p3dn、G3)。

哪些 DLAMI 受此更改的影响?

所有 DLAMI 都受此更改的影响。

这对你意味着什么?

只要在兼容的实例类型上运行,新 DLAMI 将继续提供当前 DLAMI 的功能、性能和安全性。如果您使用的是 DLAMI,则需要确保在每个 DLAMI 的发行说明中提到的兼容实例上启动 DLAMI(见此处)。例如:您需要将此更改适应于:

  • 使用正确的 CLI 查询调用 DLAMI(见下文)

  • 在兼容的实例类型上通过控制台和 CLI 启动 DLAMI

如果您要从 EC2 控制台启动 DLAMI 快速入门:每个 DLAMI 描述都列出了 EC2 控制台支持的实例类型。您应该在兼容的实例上启动 DLAMI。

EC2 快速入门

如果您使用 CLI 启动 DLAMis,则必须修改查询。例如:

目前,以下 CLI 查询用于支持所有实例 [P3、p3dn、G3、g4dn、G5、P4、P5] 的基本 DLAMI:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base AMI (Amazon Linux 2) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

新的 CLI 查询将是:

对于支持 P3、p3dn 和 G3 的基础 DLAMI,请执行以下操作:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

对于支持 g4dN、G5、P4 和 P5 的基础 DLAMI:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

在此处参阅新 AMI 的更新版本说明。有关如何在 EC2 实例上启动 AMI,请参阅此处的说明。

你应该什么时候开始使用新的 dLAMis?

您应该尽快开始使用新的 DLAMis 来获取最新的框架、依赖关系、补丁和功能。或者,如果你使用的是在 2023 年 8 月 11 日之前发布的 Amazon Linux 2 DLAMI,那么你可以选择在 2023 年 11 月 30 日之前继续实时修补他们的 DLAMI(参见此处的说明)。

新的 dLaMis 会不会在功能上有所损失?

不,新的 DLAMis 不会丢失任何功能。拆分后的新 DLAMI 将继续提供拆分前旧 DLAMI 的所有功能、性能和安全性,前提是它们是在兼容的实例上运行的。我们将 DLAMI 分为两组,以便我们继续提供最新、高性能且安全的 DLAMI,供您在各种实例上使用。

那么 DLC 呢?

DLC 不包含 NVIDIA 驱动程序,因此它们不受此更改的影响。但是您应确保 DLC 在与底层实例兼容的 AMI 上运行。