SageMaker HyperPod AMI 发布了 Slurm 版 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod AMI 发布了 Slurm 版

以下发行说明跟踪了适用于 Slurm 编排的 Amazon SageMaker HyperPod AMI 版本的最新更新。 HyperPod AMIs 它们建立在Amazon 深度学习基础 GPU AMI (Ubuntu 22.0 4) 之上。 HyperPod服务团队通过SageMaker HyperPod DLAMI分发软件补丁。有关适用于 Amazon EKS 编排的 HyperPod AMI 版本,请参阅SageMaker HyperPod 亚马逊 EKS 的 AMI 发布。有关 Amazon SageMaker HyperPod 功能版本的信息,请参阅亚马逊 SageMaker HyperPod 发行说明

注意

要使用最新的 DLAMI 更新现有 HyperPod 集群,请参阅。更新集群的 SageMaker HyperPod 平台软件

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 5 月 13 日

亚马逊 SageMaker HyperPod 发布了更新后的 AMI,支持适用于 Slurm 集群的 Ubuntu 22.04 LTS。 Amazon 定期更新 AMIs 以确保您可以访问最新的软件堆栈。升级到最新 AMI 可通过全面的软件包更新、提高工作负载的性能和稳定性以及与新实例类型和最新内核功能的兼容性来增强安全性。

重要

从Ubuntu 20.04 LTS到Ubuntu 22.04 LTS的更新引入的更改可能会影响与专为Ubuntu 20.04设计的软件和配置的兼容性。

Ubuntu 22.04 AMI 中的关键更新

下表列出了 Ubuntu 22.04 AMI 的组件版本与之前的 AMI 的对比。

Ubuntu 22.04 AMI 的组件版本与之前的 AMI 的对比
组件 先前版本 更新版本

Ubuntu 操作系统

20.04 LTS

22.04 LTS

Slurm

24.11

24.11(不变)

Python

3.8(默认值)

3.10(默认)

亚马逊上的 Elastic Fabric Adapter (EFA) FSx

不支持

支持

Linux 内

5.15

6.8

GNU C 库 (glibc)

2.31

2.35

GNU 编译器集合 (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

支持 ≥ 2.35

网络文件系统(NFS)

1:1.3 .4

1:2.6 .1

注意

尽管 Slurm 版本 (24.11) 保持不变,但此 AMI 中的底层操作系统和库更新可能会影响您的系统行为和工作负载兼容性。在升级生产集群之前,您必须测试您的工作负载。

升级到 Ubuntu 22.04 AMI

在将集群升级到 Ubuntu 22.04 AMI 之前,请完成这些准备步骤并查看升级要求。要对升级失败进行故障排除,请参阅升级失败疑难解答

查看 Python 兼容性

Ubuntu 22.04 AMI 使用 Python 3.10 作为默认版本,从 Python 3.8 升级而来。尽管 Python 3.10 保持了与大多数 Python 3.8 代码的兼容性,但你应该在升级之前测试现有的工作负载。如果您的工作负载需要 Python 3.8,则可以在生命周期脚本中使用以下命令进行安装:

yum install python-3.8

在升级集群之前,请务必执行以下操作:

  1. 测试你的代码与 Python 3.10 的兼容性。

  2. 验证您的生命周期脚本在新环境中是否有效。

  3. 检查所有依赖项是否与新的 Python 版本兼容。

  4. 如果您通过从中复制默认生命周期脚本来创建 HyperPod 集群 GitHub,请在升级到 Ubuntu 22 之前将以下命令添加到您的setup_mariadb_accounting.sh文件中。有关完整的脚本,请参阅上的 setup_mariadb_accounting.sh GitHub

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

升级你的 Slurm 集群

您可以通过两种方式升级您的 Slurm 集群以使用新的 AMI:

  1. 使用 CreateClusterAPI 创建新集群。

  2. 使用 UpdateClusterSoftwareAPI 更新现有集群的软件。

经过验证的配置

Amazon 已在 G5、G6、G6e、p4d、P5 和 Trn1 实例上测试了各种分布式训练工作负载和基础设施功能,包括:

  • 使用 PyTorch (例如 FSDP、、 LLa MA NeMo、MNIST)进行分布式训练。

  • 使用 Nvidia(P/G 系列)和 Neu Amazon ron(Trn1)跨实例类型进行加速器测试。

  • 弹性功能,包括自动恢复深度运行状况检查

集群停机时间和可用性

在升级过程中,集群将不可用。要最大限度地减少干扰,请执行以下操作:

  • 在较小的集群上测试升级过程。

  • 在升级之前创建检查点,然后在升级完成后从现有检查点重新启动训练工作负载。

升级失败疑难解答

升级失败时,请先确定失败是否与生命周期脚本有关。这些脚本通常由于语法错误、缺少依赖项或配置不正确而失败。

要调查与生命周期脚本相关的故障,请查看 CloudWatch 日志。所有 SageMaker HyperPod 事件和日志都存储在日志组下:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。具体看一下日志流LifecycleConfig/[instance-group-name]/[instance-id],它提供了有关脚本执行期间任何错误的详细信息。

如果升级失败与生命周期脚本无关,请收集相关信息,包括集群 ARN、错误日志和时间戳,然后联系Amazon 支持部门寻求进一步帮助。

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 4 月 28 日

对 Slurm 的改进

亚马逊 SageMaker HyperPod DLAMI 支持 Slurm

Installed the latest version of Amazon Neuron SDK
  • aws-neuronx-collectives: 2.24.59. 0-838c7fc8b

  • aws-neuronx-dkms: 2.20 .28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/unknown:2.22.61.0

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 2 月 18 日

对 Slurm 的改进

  • 将 Slurm 版本升级到 24.11。

  • 将 Elastic Fabric Adapter (EFA) 版本从 1.37.0 升级到 1.38.0。

  • EFA 现在包含 Amazon OFI NCCL 插件。你可以在/opt/amazon/ofi-nccl目录中找到这个插件,而不是原来的/opt/aws-ofi-nccl/位置。如果您需要更新LD_LIBRARY_PATH环境变量,请务必修改路径以指向 OFI NCCL 插件的新/opt/amazon/ofi-nccl位置。

  • 从这些 DLAMIs软件包中移除了 emacs 软件包。你可以从 GNU emac 中安装 emacs。

亚马逊 SageMaker HyperPod DLAMI 支持 Slurm

Installed the latest version of Amazon Neuron SDK 2.19
  • aws-neuronx-collectives/unknown:2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unknown:2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unknown:2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unknown:2.20.204.0 amd64

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 12 月 21 日

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • NVIDIA 驱动程序:550.127. 05

  • EFA 驱动程序:2.13 .0-1

  • 已安装最新版本的 Ne Amazon uron SDK

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 2.18.20 .0

    • aws-neuronx-oci-hook: 2.5. 8.0

    • aws-neuronx-runtime-lib: 2.22.19 .0

    • aws-neuronx-tools: 2.19 .0.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 24 日

AMI 一般更新

  • MEL(墨尔本)地区发布。

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-11-22。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 15 日

AMI 一般更新

  • 已安装最新libnvidia-nscq-xxx软件包。

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • NVIDIA 驱动程序:550.127. 05

  • EFA 驱动程序:2.13 .0-1

  • 已安装最新版本的 Ne Amazon uron SDK

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17 .0

    • aws-neuronx-oci-hook: v2.4. 4.0

    • aws-neuronx-runtime-lib: v2.21.4 1.0

    • aws-neuronx-tools: v2.18. 3.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 11 日

AMI 一般更新

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-10-23。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 10 月 21 日

AMI 一般更新

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-09-27。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 9 月 10 日

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • 安装 NVIDIA 驱动程序 v550.90.07

  • 安装 EFA 驱动程序 v2.10

  • 已安装最新版本的 Ne Amazon uron SDK

    • aws-neuronx-collectives: v2.21.4 6.0

    • aws-neuronx-dkms: v2.17.17 .0

    • aws-neuronx-oci-hook: v2.4. 4.0

    • aws-neuronx-runtime-lib: v2.21.4 1.0

    • aws-neuronx-tools: v2.18. 3.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 3 月 14 日

HyperPod 适用于 Slurm 的 DLAMI 软件补丁

  • Slurm 升级至 v23.11.1

  • 添加了 Op PMIx en v4.2.6 以启用 Slurm。 PMIx

  • 基于 Amazon 发布的深度学习基础 GPU AMI (Ubuntu 20.04) 于 2023 年 10 月 26 日发布

  • 除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表

    • Slurm:v23.11.1

    • 打开PMIx :v4.2. 6

    • Munge:v0.5.15

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包

升级步骤

  • 运行以下命令调用 UpdateClusterSoftwareAPI,使用最新的 HyperPod DLAMI 更新现有 HyperPod 集群。要了解更多说明,请参阅 更新集群的 SageMaker HyperPod 平台软件

    重要

    运行此 API 前,请备份您的工作。打补丁过程会用更新的 AMI 替换根卷,这意味着存储在实例根卷中的先前数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。 FSx 有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

SageMaker HyperPod AMI 在 Slurm 上发布:2023 年 11 月 29 日

HyperPod 适用于 Slurm 的 DLAMI 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。

  • 基于 Amazon 发布的深度学习基础 GPU AMI (Ubuntu 20.04) 于 2023 年 10 月 18 日发布

  • 除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表

    • Slurm:v23.02.3

    • Munge:v0.5.15

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包