本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
DLAMI 的重要更改
常见问题
发生了什么变化?
2023 年 11 月 15 日 Amazon Deep Learning AMI (dLAMis)将分为两个独立的小组:
-
使用 Nvidia 专有驱动程序(支持 P3、p3dn、G3)的 DLAMI。
-
使用 Nvidia OSS 驱动程序(支持 g4dn、G5、P4、P5)的 DLAMI。
因此,将使用新的名称和新的 AMI ID 为这两个类别分别创建新的 DLAMI。这些 DLAMI 不可互换,也就是说,来自一个组的 dLAMI 将不支持另一个组支持的实例,例如,支持 p5 的 DLAMI 将不支持 g3,反之亦然。
![DLAMI fork](images/dlami-fork.jpg)
为什么需要进行此更改?
目前,适用于 NVIDIA GPU 的 DLAMI 包括来自 NVIDIA 的专有内核驱动程序。但是,最近,上游 Linux 内核社区接受了一项变更,该变更将专有内核驱动程序(例如 NVIDIA GPU 驱动程序)与其他内核驱动程序的通信隔离开来。此更改禁用了 P4/P5 系列实例上的 GPUDirect RDMA,这种机制允许 GPU 高效地使用 EFA 进行分布式训练。因此,dLAMis 将使用 OpenRM 驱动程序(NVIDIA 开源驱动程序),该驱动程序与开源 EFA 驱动程序相关联,以支持 g4dn、G5、P4 和 P5。但是,此 OpenRM 驱动程序不支持较旧的实例(P3、G3 等) 因此,为了确保我们继续提供支持这两种类型实例的最新、高性能和安全的DLAMI,我们将DLAMI分为两组——一组使用OpenRM驱动程序(支持G4dn、G5、P4和P5),另一组使用较旧的专有驱动程序(支持较旧的实例 P3、p3dn、G3)。
哪些 DLAMI 受此更改的影响?
所有 DLAMI 都受此更改的影响。
这对你意味着什么?
只要在兼容的实例类型上运行,新 DLAMI 将继续提供当前 DLAMI 的功能、性能和安全性。如果您使用的是 DLAMI,则需要确保在每个 DLAMI 的发行说明中提到的兼容实例上启动 DLAMI(见此处)。例如:您需要将此更改适应于:
-
使用正确的 CLI 查询调用 DLAMI(见下文)
-
在兼容的实例类型上通过控制台和 CLI 启动 DLAMI
如果您要从 EC2 控制台启动 DLAMI 快速入门:每个 DLAMI 描述都列出了 EC2 控制台支持的实例类型。您应该在兼容的实例上启动 DLAMI。
![EC2 快速入门](images/ec2-quickstart.png)
如果您使用 CLI 启动 DLAMis,则必须修改查询。例如:
目前,以下 CLI 查询用于支持所有实例 [P3、p3dn、G3、g4dn、G5、P4、P5] 的基本 DLAMI:
aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base AMI (Amazon Linux 2) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
新的 CLI 查询将是:
对于支持 P3、p3dn 和 G3 的基础 DLAMI,请执行以下操作:
aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
对于支持 g4dN、G5、P4 和 P5 的基础 DLAMI:
aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
请在此处参阅新 AMI 的更新版本说明。有关如何在 EC2 实例上启动 AMI,请参阅此处的说明。
你应该什么时候开始使用新的 dLAMis?
您应该尽快开始使用新的 DLAMis 来获取最新的框架、依赖关系、补丁和功能。或者,如果你使用的是在 2023 年 8 月 11 日之前发布的 Amazon Linux 2 DLAMI,那么你可以选择在 2023 年 11 月 30 日之前继续实时修补他们的 DLAMI(参见此处的说明)。
新的 dLaMis 会不会在功能上有所损失?
不,新的 DLAMis 不会丢失任何功能。拆分后的新 DLAMI 将继续提供拆分前旧 DLAMI 的所有功能、性能和安全性,前提是它们是在兼容的实例上运行的。我们将 DLAMI 分为两组,以便我们继续提供最新、高性能且安全的 DLAMI,供您在各种实例上使用。
那么 DLC 呢?
DLC 不包含 NVIDIA 驱动程序,因此它们不受此更改的影响。但是您应确保 DLC 在与底层实例兼容的 AMI 上运行。