本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker HyperPod AMI 发布了 Slurm 版
以下发行说明跟踪了适用于 Slurm 编排的 Amazon SageMaker HyperPod AMI 版本的最新更新。 HyperPod AMIs 它们建立在Amazon 深度学习基础 GPU AMI (Ubuntu 22.0
注意
要使用最新的 DLAMI 更新现有 HyperPod 集群,请参阅。更新集群的 SageMaker HyperPod 平台软件
SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 5 月 13 日
亚马逊 SageMaker HyperPod 发布了更新后的 AMI,支持适用于 Slurm 集群的 Ubuntu 22.04 LTS。 Amazon 定期更新 AMIs 以确保您可以访问最新的软件堆栈。升级到最新 AMI 可通过全面的软件包更新、提高工作负载的性能和稳定性以及与新实例类型和最新内核功能的兼容性来增强安全性。
重要
从Ubuntu 20.04 LTS到Ubuntu 22.04 LTS的更新引入的更改可能会影响与专为Ubuntu 20.04设计的软件和配置的兼容性。
在本发行说明中,您将看到:
Ubuntu 22.04 AMI 中的关键更新
下表列出了 Ubuntu 22.04 AMI 的组件版本与之前的 AMI 的对比。
组件 | 先前版本 | 更新版本 |
---|---|---|
Ubuntu 操作系统 |
20.04 LTS |
22.04 LTS |
Slurm |
24.11 |
24.11(不变) |
Python |
3.8(默认值) |
3.10(默认) |
亚马逊上的 Elastic Fabric Adapter (EFA) FSx |
不支持 |
支持 |
Linux 内 |
5.15 |
6.8 |
GNU C 库 (glibc) |
2.31 |
2.35 |
GNU 编译器集合 (GCC) |
9.4.0 |
11.4.0 |
libc6 |
≤ 2.31 |
支持 ≥ 2.35 |
网络文件系统(NFS) |
1:1.3 .4 |
1:2.6 .1 |
注意
尽管 Slurm 版本 (24.11) 保持不变,但此 AMI 中的底层操作系统和库更新可能会影响您的系统行为和工作负载兼容性。在升级生产集群之前,您必须测试您的工作负载。
升级到 Ubuntu 22.04 AMI
在将集群升级到 Ubuntu 22.04 AMI 之前,请完成这些准备步骤并查看升级要求。要对升级失败进行故障排除,请参阅升级失败疑难解答。
查看 Python 兼容性
Ubuntu 22.04 AMI 使用 Python 3.10 作为默认版本,从 Python 3.8 升级而来。尽管 Python 3.10 保持了与大多数 Python 3.8 代码的兼容性,但你应该在升级之前测试现有的工作负载。如果您的工作负载需要 Python 3.8,则可以在生命周期脚本中使用以下命令进行安装:
yum install python-3.8
在升级集群之前,请务必执行以下操作:
-
测试你的代码与 Python 3.10 的兼容性。
-
验证您的生命周期脚本在新环境中是否有效。
-
检查所有依赖项是否与新的 Python 版本兼容。
-
如果您通过从中复制默认生命周期脚本来创建 HyperPod 集群 GitHub,请在升级到 Ubuntu 22 之前将以下命令添加到您的
setup_mariadb_accounting.sh
文件中。有关完整的脚本,请参阅上的 setup_mariadb_accounting.sh GitHub。 apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
升级你的 Slurm 集群
您可以通过两种方式升级您的 Slurm 集群以使用新的 AMI:
-
使用
CreateCluster
API 创建新集群。 -
使用
UpdateClusterSoftware
API 更新现有集群的软件。
经过验证的配置
Amazon 已在 G5、G6、G6e、p4d、P5 和 Trn1 实例上测试了各种分布式训练工作负载和基础设施功能,包括:
集群停机时间和可用性
在升级过程中,集群将不可用。要最大限度地减少干扰,请执行以下操作:
-
在较小的集群上测试升级过程。
-
在升级之前创建检查点,然后在升级完成后从现有检查点重新启动训练工作负载。
升级失败疑难解答
升级失败时,请先确定失败是否与生命周期脚本有关。这些脚本通常由于语法错误、缺少依赖项或配置不正确而失败。
要调查与生命周期脚本相关的故障,请查看 CloudWatch 日志。所有 SageMaker HyperPod 事件和日志都存储在日志组下:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
。具体看一下日志流LifecycleConfig/[instance-group-name]/[instance-id]
,它提供了有关脚本执行期间任何错误的详细信息。
如果升级失败与生命周期脚本无关,请收集相关信息,包括集群 ARN、错误日志和时间戳,然后联系Amazon 支持
SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 4 月 28 日
对 Slurm 的改进
-
将 NVIDIA 驱动程序从 550.144.03 版本升级到 550.163.01。此次升级旨在解决 2025 年 4 月 NVIDIA GPU 显示屏安全公告
中存在的常见漏洞和漏洞 (CVEs)。
亚马逊 SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 2 月 18 日
对 Slurm 的改进
-
将 Slurm 版本升级到 24.11。
-
将 Elastic Fabric Adapter (EFA) 版本从 1.37.0 升级到 1.38.0。
-
EFA 现在包含 Amazon OFI NCCL 插件。你可以在
/opt/amazon/ofi-nccl
目录中找到这个插件,而不是原来的/opt/aws-ofi-nccl/
位置。如果您需要更新LD_LIBRARY_PATH
环境变量,请务必修改路径以指向 OFI NCCL 插件的新/opt/amazon/ofi-nccl
位置。 -
从这些 DLAMIs软件包中移除了 emacs 软件包。你可以从 GNU emac 中安装 emacs。
亚马逊 SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 12 月 21 日
SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 24 日
AMI 一般更新
-
在
MEL
(墨尔本)地区发布。 -
将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:
-
Slurm:2024-11-22。
-
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 15 日
AMI 一般更新
-
已安装最新
libnvidia-nscq-xxx
软件包。
SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 11 日
AMI 一般更新
-
将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:
-
Slurm:2024-10-23。
-
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 10 月 21 日
AMI 一般更新
-
将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:
-
Slurm:2024-09-27。
-
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 9 月 10 日
SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 3 月 14 日
HyperPod 适用于 Slurm 的 DLAMI 软件补丁
-
将 Slurm
升级至 v23.11.1 -
添加了 Op PMIx en
v4.2.6 以启用 Slurm 。 PMIx -
基于 Amazon 发布的深度学习基础 GPU AMI (Ubuntu 20.04)
于 2023 年 10 月 26 日发布 -
除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表
-
Slurm
:v23.11.1 -
Munge:v0.5.15
-
aws-neuronx-dkms
:v2.* -
aws-neuronx-collectives
:v2.* -
aws-neuronx-runtime-lib
:v2.* -
aws-neuronx-tools
:v2.* -
SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包
-
升级步骤
-
运行以下命令调用 UpdateClusterSoftwareAPI,使用最新的 HyperPod DLAMI 更新现有 HyperPod 集群。要了解更多说明,请参阅 更新集群的 SageMaker HyperPod 平台软件。
重要
运行此 API 前,请备份您的工作。打补丁过程会用更新的 AMI 替换根卷,这意味着存储在实例根卷中的先前数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。 FSx 有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
SageMaker HyperPod AMI 在 Slurm 上发布:2023 年 11 月 29 日
HyperPod 适用于 Slurm 的 DLAMI 软件补丁
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。
-
基于 Amazon 发布的深度学习基础 GPU AMI (Ubuntu 20.04)
于 2023 年 10 月 18 日发布 -
除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表
-
Slurm
:v23.02.3 -
Munge:v0.5.15
-
aws-neuronx-dkms
:v2.* -
aws-neuronx-collectives
:v2.* -
aws-neuronx-runtime-lib
:v2.* -
aws-neuronx-tools
:v2.* -
SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包
-