本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
重要的 NVIDIA 驱动程序更改为 DLAMIs
2023年11月15日,对与使用的NIVIDA驱动程序相关的 Amazon Deep Learning AMIs (DLAMI) Amazon 进行了重要更改。 DLAMIs 有关更改内容以及更改是否会影响您的使用情况的信息 DLAMIs,请参阅DLAMI NVIDIA 驱动程序变更 FAQs。
DLAMI NVIDIA 驱动程序变更 FAQs
更改了哪些内容?
我们分 DLAMIs 成两个独立的小组:
-
DLAMIs 使用 NVIDIA 专有驱动程序(支持 P3、p3dn、G3)
-
DLAMIs 使用 NVIDIA OSS 驱动程序(支持 g4dn、G5、P4、P5)
因此,我们使用新名称和新 AMI DLAMIs 为这两个类别分别创建了新类别 IDs。 DLAMIs 它们不可互换。也就是说, DLAMIs 来自一个组的实例不支持另一个组支持的实例。例如,支持 P5 的 DLAMI 不支持 G3,而支持 G3 的 DLAMI 不支持 P5。

为什么需要进行此更改?
以前, DLAMIs NVIDIA GPUs 包含了来自 NVIDIA 的专有内核驱动程序。然而,上游 Linux 内核社区接受了一项更改,此项更改将专有内核驱动程序(如 NVIDIA GPU 驱动程序)隔离开来,使之无法与其它内核驱动程序通信。此更改禁用了 P4 和 P5 系列实例上的 GPUDirect RDMA,这是一种允许高效使用 EFA GPUs 进行分布式训练的机制。因此, DLAMIs 现在使用 OpenRM 驱动程序(NVIDIA 开源驱动程序),该驱动程序与开源 EFA 驱动程序链接以支持 g4dn、G5、P4 和 P5。但是,此 OpenRM 驱动程序不支持较旧的实例(例如 P3 和 G3)。因此,为了确保我们继续提供支持这两种实例类型的最新、高性能和安全性 DLAMIs ,我们 DLAMIs 分为两组:一组使用 OpenRM 驱动程序(支持 G4dn、G5、P4 和 P5),另一组使用较旧的专有驱动程序(支持 P3、p3dn 和 G3)。
这一变化影响 DLAMIs 了哪些?
这一变化影响了所有人 DLAMIs。
这对您意味着什么?
只要您在支持的亚马逊弹性计算云 (Amazon EC2) 实例类型上运行,它们都 DLAMIs 将继续提供功能、性能和安全性。要确定 DLAMI 支持的 EC2 实例类型,请查看该 DLAMI 的发行说明,然后查找支持的实例。 EC2 有关当前支持的 DLAMI 选项的列表及指向其发布说明的链接,请参阅 的发行说明 DLAMIs。
此外,您必须使用正确的 Amazon Command Line Interface (Amazon CLI) 命令来调用当前 DLAMIs。
对于支持 P3、p3dn 和 G3 的基础 DLAMIs ,请使用以下命令:
aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
对于支持 g4dN、G5、P4 和 P5 的基础 DLAMIs ,请使用以下命令:
aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
较新的版本会失去功能 DLAMIs吗?
否,不损失任何功能。当前版本 DLAMIs 提供前一个版本的所有功能、性能和安全性 DLAMIs,前提是你在支持的 EC2 实例类型上运行它们。
这一变化是否影响了 Deep Learning Containers?
不,此更改并未影响 Dee Amazon p Learning Containers,因为它们不包括 NVIDIA 驱动程序。但是,请务必在与底层实例兼容的深度学习容器上 AMIs 运行 Deep Learning Containers。