

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# SageMaker HyperPod AMI 发布了 Slurm 版
适用于 Slurm 的 AMI 版本

以下发行说明跟踪了适用于 Slurm 编排的 Amazon SageMaker HyperPod AMI 版本的最新更新。 HyperPod AMIs 它们建立在[Amazon 深度学习基础 GPU AMI (Ubuntu 22.0](https://www.amazonaws.cn/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/) 4) 之上。 HyperPod服务团队通过[SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami)分发软件补丁。有关适用于 Amazon EKS 编排的 HyperPod AMI 版本，请参阅[SageMaker HyperPod 亚马逊 EKS 的 AMI 发布](sagemaker-hyperpod-release-ami-eks.md)。有关 Amazon SageMaker HyperPod 功能版本的信息，请参阅[亚马逊 SageMaker HyperPod 发行说明](sagemaker-hyperpod-release-notes.md)。

**注意**  
要使用最新的 DLAMI 更新现有 HyperPod 集群，请参阅。[更新集群的 SageMaker HyperPod 平台软件](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)

## SageMaker HyperPod AMI 在 Slurm 上发布：2026 年 3 月 1 日
2026年3月1日

 **AMI 常规更新** 
+ 已发布适用于 Slurm 的 SageMaker HyperPod AMI 版本 24.11 的更新。
+ [DLAMI 基本发行说明可在此处获得。](https://docs.amazonaws.cn//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI 支持 Slurm** 

此版本包含以下更新：

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Linux 内核版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 客户端版本：2.15.6-1fsx26
  + 运行版本：1.3.4
  + 容器版本：containerd containerd.io v2.2.1
  + NVIDIA 驱动程序版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安装程序版本：1.45.1
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 集合版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx26
  + nvidia-imex 版本：580.126.09-1
  + 系统版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + git 版本：2.34.1
  + 制作版本：4.3
  + cloudwatch-agent 版本：1.300064.1b1344-1
  + nfs-utils 版本：1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connece 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1
+ Slurm 24.11 (x86\$164)：
  + Linux 内核版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 客户端版本：2.15.6-1fsx26
  + 运行版本：1.3.4
  + 容器版本：containerd containerd.io v2.2.1
  + aws Neuronx DKMS 版本：2.26.5.0
  + NVIDIA 驱动程序版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安装程序版本：1.45.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + stress 版本：1.0.5
  + 集合版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx26
  + 系统版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + 制作版本：4.3
  + cloudwatch-agent 版本：1.300064.1b1344-1
  + nfs-utils 版本：1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connece 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2026 年 2 月 12 日
2026 年 2 月 12 日

 **AMI 常规更新** 
+ 已发布适用于 Slurm 的 SageMaker HyperPod AMI 版本 24.11 的更新。
+ [DLAMI 基本发行说明可在此处获得。](https://docs.amazonaws.cn//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI 支持 Slurm** 

此版本包含以下更新：

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Linux 内核版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 客户端版本：2.15.6-1fsx25
  + 运行版本：1.3.4
  + 容器版本：containerd containerd.io v2.2.1
  + NVIDIA 驱动程序版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安装程序版本：1.45.1
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 集合版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + nvidia-imex 版本：580.126.09-1
  + 系统版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + git 版本：2.34.1
  + 制作版本：4.3
  + cloudwatch-agent 版本：1.300064.0b1337-1
  + nfs-utils 版本：1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connece 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1
+ Slurm 24.11 (x86\$164)：
  + Linux 内核版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 客户端版本：2.15.6-1fsx25
  + 运行版本：1.3.4
  + 容器版本：containerd containerd.io v2.2.1
  + aws Neuronx DKMS 版本：2.25.4.0
  + NVIDIA 驱动程序版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安装程序版本：1.45.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + stress 版本：1.0.5
  + 集合版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + 系统版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + 制作版本：4.3
  + cloudwatch-agent 版本：1.300064.0b1337-1
  + nfs-utils 版本：1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connece 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2026 年 1 月 25 日
2026 年 1 月 25 日

 **AMI 常规更新** 
+ 已发布适用于 Slurm 的 SageMaker HyperPod AMI 版本 24.11 的更新。
+ [DLAMI 基本发行说明可在此处获得。](https://docs.amazonaws.cn//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI 支持 Slurm** 

此版本包含以下更新：

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Linux 内核版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 客户端版本：2.15.6-1fsx25
  + 运行版本：1.3.4
  + 容器版本：containerd containerd.io v2.2.1
  + NVIDIA 驱动程序版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安装程序版本：2.3.1amzn3.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 集合版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + nvidia-imex 版本：580.126.09-1
  + 系统版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + git 版本：2.34.1
  + 制作版本：4.3
  + cloudwatch-agent 版本：1.300063.0b1323-1
  + nfs-utils 版本：1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connece 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1
+ Slurm 24.11 (x86\$164)：
  + Linux 内核版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 客户端版本：2.15.6-1fsx25
  + 运行版本：1.3.4
  + 容器版本：containerd containerd.io v2.2.1
  + aws Neuronx DKMS 版本：2.25.4.0
  + NVIDIA 驱动程序版本：580.126.09
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安装程序版本：2.3.1amzn2.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + stress 版本：1.0.5
  + 集合版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + 系统版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + 制作版本：4.3
  + cloudwatch-agent 版本：1.300063.0b1323-1
  + nfs-utils 版本：1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connece 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2025 年 12 月 29 日
2025 年 12 月 29 日

 **AMI 常规更新** 
+ 已发布适用于 Slurm 的 SageMaker HyperPod AMI 版本 24.11 的更新。
+ [DLAMI 基本发行说明可在此处获得。](https://docs.amazonaws.cn//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI 支持 Slurm** 

此版本包含以下更新：

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Linux 内核版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 客户端版本：2.15.6-1fsx25
  + 运行版本：1.3.4
  + 容器版本：containerd containerd.io v2.2.1
  + NVIDIA 驱动程序版本：580.105.08
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安装程序版本：2.3.1amzn3.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + 集合版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + nvidia-imex 版本：580.105.08-1
  + 系统版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + git 版本：2.34.1
  + 制作版本：4.3
  + cloudwatch-agent 版本：1.300062.0b1304-1
  + nfs-utils 版本：1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connece 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1
+ Slurm 24.11 (x86\$164)：
  + Linux 内核版本：6.8
  + Glibc 版本：2.35
  + OpenSSL 版本：3.0.2
  + FSx Lustre 客户端版本：2.15.6-1fsx25
  + 运行版本：1.3.4
  + 容器版本：containerd containerd.io v2.2.1
  + aws Neuronx DKMS 版本：2.25.4.0
  + NVIDIA 驱动程序版本：580.105.08
  + CUDA 版本：12.6、12.8、12.9、13.0
  + EFA 安装程序版本：2.3.1amzn2.0
  + Python 版本：3.10.12
  + Slurm 版本：24.11.0
  + nvme-cli 版本：1.16
  + stress 版本：1.0.5
  + 集合版本：5.12.0。
  + lustre-client 版本：2.15.6-1fsx25
  + 系统版本：249
  + openssh 版本：8.9
  + sudo 版本：1.9.9
  + ufw 版本：0.36.1
  + gcc 版本：11.4.0
  + cmake 版本：3.22.1
  + 制作版本：4.3
  + cloudwatch-agent 版本：1.300062.0b1304-1
  + nfs-utils 版本：1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
  + lvm2 版本：2.03.11
  + ec2-instance-connece 版本：1.1.14-0ubuntu1.1
  + rdma-core 版本：60.0-1

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2025 年 11 月 22 日
2025 年 11 月 22 日

 **AMI 常规更新** 
+ 已发布适用于 Slurm 的 SageMaker HyperPod AMI 版本 24.11 的更新。
+ [DLAMI 基本发行说明可在此处获得。](https://docs.amazonaws.cn//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod DLAMI 支持 Slurm** 

此版本包含以下更新：

------
#### [ Slurm (arm64) ]
+ Linux 内核版本：6.8
+ Glibc 版本：2.35
+ OpenSSL 版本：3.0.2
+ FSx Lustre 客户端版本：2.15.6-1fsx21
+ 运行版本：1.3.3
+ 容器版本：containerd containerd.io v2.1.5
+ NVIDIA 驱动程序版本：580.95.05
+ CUDA 版本：12.6、12.8、12.9、13.0
+ EFA 安装程序版本：2.1.0amzn5.0
+ Python 版本：3.10.12
+ Slurm 版本：24.11.0
+ nvme-cli 版本：1.16
+ 集合版本：5.12.0。
+ lustre-client 版本：2.15.6-1fsx21
+ nvidia-imex 版本：580.95.05-1
+ 系统版本：249
+ openssh 版本：8.9
+ sudo 版本：1.9.9
+ ufw 版本：0.36.1
+ gcc 版本：11.4.0
+ cmake 版本：3.22.1
+ git 版本：2.34.1
+ 制作版本：4.3
+ cloudwatch-agent 版本：1.300062.0b1304-1
+ nfs-utils 版本：1:2.6 .1-1ubuntu1.2
+ iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
+ lvm2 版本：2.03.11
+ ec2-instance-connece 版本：1.1.14-0ubuntu1.1
+ rdma-core 版本：58.amzn0-1

------
#### [ Slurm (x86\$164) ]
+ Linux 内核版本：6.8
+ Glibc 版本：2.35
+ OpenSSL 版本：3.0.2
+ FSx Lustre 客户端版本：2.15.6-1fsx21
+ 运行版本：1.3.3
+ 容器版本：containerd containerd.io v2.1.5
+ aws Neuronx DKMS 版本：2.24.7.0
+ NVIDIA 驱动程序版本：580.95.05
+ CUDA 版本：12.6、12.8、12.9、13.0
+ EFA 安装程序版本：2.3.1amzn1.0
+ Python 版本：3.10.12
+ Slurm 版本：24.11.0
+ nvme-cli 版本：1.16
+ stress 版本：1.0.5
+ 集合版本：5.12.0。
+ lustre-client 版本：2.15.6-1fsx21
+ 系统版本：249
+ openssh 版本：8.9
+ sudo 版本：1.9.9
+ ufw 版本：0.36.1
+ gcc 版本：11.4.0
+ cmake 版本：3.22.1
+ 制作版本：4.3
+ cloudwatch-agent 版本：1.300062.0b1304-1
+ nfs-utils 版本：1:2.6 .1-1ubuntu1.2
+ iscsi-initiator-utils 版本：2.1.5-1ubuntu1.1
+ lvm2 版本：2.03.11
+ ec2-instance-connece 版本：1.1.14-0ubuntu1.1
+ rdma-core 版本：59.amzn0-1

------

## SageMaker HyperPod 发布说明：2025 年 11 月 7 日
2025年11月7日

**AMI 包括以下内容：**
+ 支持 Amazon Web Services 服务：亚马逊 EC2
+ 操作系统：Ubuntu 22.04
+ 计算架构： ARM64
+ 更新的软件包：NVIDIA 驱动程序：580.95.05
+ CUDA 版本：cuda-12.6、cuda-12.8、cuda-12.9、cuda-13.0
+ 安全补丁：[Runc 安全](https://www.amazonaws.cn/security/security-bulletins/rss/aws-2025-024/)补丁

## SageMaker HyperPod 发布说明：2025 年 9 月 29 日
2025 年 9 月 29 日

**AMI 包括以下内容：**
+ 支持 Amazon Web Services 服务：亚马逊 EC2
+ 操作系统：Ubuntu 22.04
+ 计算架构： ARM64
+ 更新的软件包：NVIDIA 驱动程序：570.172.08
+ 安全修复

## SageMaker HyperPod 发布说明：2025 年 8 月 12 日
2025 年 8 月 12 日

**AMI 包括以下内容：**
+ 支持 Amazon Web Services 服务：亚马逊 EC2
+ 操作系统：Ubuntu 22.04
+ 计算架构： ARM64
+ 已为以下软件包安装了最新的可用版本：
  + Linux 内核：6.8
  + FSx Lustre
  + Docker
  + Amazon CLI v2 在 `/usr/bin/aws`
  + NVIDIA DCGM
  + Nvidia Container Toolkit：
    + 版本命令：`nvidia-container-cli -V`
  + Nvidia-docker2：
    + 版本命令：`nvidia-docker version`
  + nvidia-imex：v570.172.08-1
+ NVIDIA 驱动程序：570.158.01
+ NVIDIA CUDA 12.4、12.5、12.6、12.8 堆栈：
  + CUDA、NCCL 和 cudDN 安装目录：`/usr/local/cuda-xx.x/`
    + 示例：`/usr/local/cuda-12.8/`、`/usr/local/cuda-12.8/`
  + 已编译的 NCCL 版本：
    + 对于 12.4 的 CUDA 目录，编译了 NCCL 版本 2.22.3\$1 .4 CUDA12
    + 对于 12.5 的 CUDA 目录，编译了 NCCL 版本 2.22.3\$1 .5 CUDA12
    + 对于 12.6 的 CUDA 目录，编译了 NCCL 版本 2.24.3\$1 .6 CUDA12
    + 对于 12.8 的 CUDA 目录，编译了 NCCL 版本 2.27.5\$1 .8 CUDA12
  + 默认 CUDA：12.8
    + PATH `/usr/local/cuda` 指向 CUDA 12.8
    + 更新以下环境变量：
      + `LD_LIBRARY_PATH`拥有 `/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64`
      + `PATH`拥有 `/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/`
      + 对于任何不同的 CUDA 版本，请`LD_LIBRARY_PATH`相应更新。
+ EFA 安装程序：1.42.0
+ 英伟达 GDRCopy：2.5.1
+ Amazon OFI NCCL 插件附带 EFA 安装程序
  + 路径`/opt/amazon/ofi-nccl/lib/aarch64-linux-gnu`和`/opt/amazon/ofi-nccl/efa`已添加到`LD_LIBRARY_PATH`。
+ Amazon CLI v2 位于`/usr/local/bin/aws2`， Amazon CLI v1 位于 `/usr/bin/aws`
+ EBS 卷类型：gp3
+ Python：`/usr/bin/python3.10`

## SageMaker HyperPod 发布说明：2025 年 5 月 27 日
2025 年 5 月 27 日

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新功能和改进**
+ 已使用以下关键组件将基础 AMI 更新至 `Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523`：
  + NVIDIA 驱动程序：570.133.20
  + CUDA：12.8（默认值），支持 CUDA 12.4-12.6
  + NCCL 版本：2.26.5
  + EFA 安装程序：1.40.0
  + Amazon OFI NCCL：1.14.2-aws
+ 更新了 Neuron SDK 软件包：
  + aws-neuronx-collectives: 2.25.65.0-9858ac9a1（来自 2.24.59.0-838c7fc8b）
  + aws-neuronx-dkms: 2.21.37.0（从 2.20.28.0 开始）
  + aws-neuronx-runtime-lib: 2.25.57.0-166c7a468（来自 2.24.53.0-f239092cc）
  + aws-neuronx-tools: 2.23.9.0（从 2.22.61.0 开始）

**重要提示**
+ NVIDIA 容器工具包 1.17.4 现已禁止挂载 CUDA 兼容性库。
+ 已将 EFA 配置从 1.37 更新至 1.38，EFA 现在包含 Amazon OFI NCCL 插件，该插件位于 `/opt/amazon/ofi-nccl` 目录而非原始 `/opt/aws-ofi-nccl/` 路径中。（发布日期：2025 年 2 月 18 日）
+ 为确保稳定性和驱动程序兼容性，已固定内核版本。

## SageMaker HyperPod AMI 在 Slurm 上发布：2025 年 5 月 13 日
2025 年 5 月 13 日

亚马逊 SageMaker HyperPod 发布了更新后的 AMI，支持适用于 Slurm 集群的 Ubuntu 22.04 LTS。 Amazon 定期更新 AMIs 以确保您可以访问最新的软件堆栈。通过升级到最新的 AMI，可通过全面的软件包更新增强安全性，提升工作负载的性能与稳定性，并实现与新实例类型及最新内核功能的兼容。

**重要**  
从 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 会引入重大变更，这些变更可能会影响与为 Ubuntu 20.04 设计的软件和配置的兼容性。

**Topics**
+ [

### Ubuntu 22.04 AMI 中的关键更新
](#sagemaker-hyperpod-ami-slurm-ubuntu22-updates)
+ [

### 升级至 Ubuntu 22.04 AMI
](#sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade)
+ [

### 排查升级失败问题
](#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot)

### Ubuntu 22.04 AMI 中的关键更新


下表列出了 Ubuntu 22.04 AMI 与上一版本的 AMI 的组件版本对比。


**Ubuntu 22.04 AMI 与上一版本的 AMI 的组件版本对比**  

| 组件 | 先前版本 | 更新后的版本 | 
| --- | --- | --- | 
|  **Ubuntu 操作系统**  |  20.04 LTS  |  22.04 LTS  | 
|  **Slurm**  |  24.11  |  24.11（未变更）  | 
|  **Python**  |  3.8（默认）  |  3.10（默认）  | 
|  **亚马逊上的 Elastic Fabric Adapter (EFA) FSx**  |  不支持  |  支持  | 
|  **Linux 内核**  |  5.15  |  6.8  | 
|  **GNU C 库（glibc）**  |  2.31  |  2.35  | 
|  **GNU 编译器集合（GCC）**  |  9.4.0  |  11.4.0  | 
|  **libc6**  |  ≤ 2.31  |  支持 ≥ 2.35  | 
|  **网络文件系统（NFS）**  |  1:1.3.4  |  1:2.6.1  | 

**注意**  
尽管 Slurm 版本（24.11）保持不变，但此 AMI 中底层操作系统和库的更新可能会影响系统行为及工作负载兼容性。在升级生产集群之前，您必须测试工作负载。

### 升级至 Ubuntu 22.04 AMI


在将集群升级至 Ubuntu 22.04 AMI 之前，请完成这些准备步骤并查看升级要求。要对排查升级失败问题，请参阅[排查升级失败问题](#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot)。

#### 查看 Python 兼容性


Ubuntu 22.04 AMI 使用 Python 3.10 作为默认版本（升级自 Python 3.8）。尽管 Python 3.10 能兼容大多数 Python 3.8 代码，但在升级前，您仍应对现有工作负载进行测试。如果您的工作负载需要 Python 3.8，则可以在生命周期脚本中使用以下命令来安装它：

```
yum install python-3.8
```

在升级集群之前，请确保执行以下操作：

1. 测试代码与 Python 3.10 的兼容性。

1. 确认生命周期脚本能在新环境中正常运行。

1. 检查所有依赖项是否与新版本的 Python 兼容。

1. 如果您通过从中复制默认生命周期脚本来创建 HyperPod 集群 GitHub，请在升级到 Ubuntu 22 之前将以下命令添加到您的`setup_mariadb_accounting.sh`文件中。有关完整的脚本，请参阅[上的 setup\$1mariadb\$1accounting.sh GitHub](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/setup_mariadb_accounting.sh)。

   ```
   apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
   ```

#### 升级 Slurm 集群


您可以通过两种方式升级 Slurm 集群以使用新的 AMI：

1. 使用 [https://docs.amazonaws.cn/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.amazonaws.cn/sagemaker/latest/APIReference/API_CreateCluster.html) API 创建新集群。

1. 使用 [https://docs.amazonaws.cn/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html](https://docs.amazonaws.cn/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API 更新现有集群的软件。

#### 已验证的配置


Amazon 已在 G5、G6、G6e、p4d、P5 和 Trn1 实例上测试了各种分布式训练工作负载和基础设施功能，包括：
+ 使用 PyTorch （例如 FSDP、、 LLa MA NeMo、MNIST）进行分布式训练。
+ 使用 Nvidia（P/G 系列）和 Neu Amazon ron（Trn1）跨实例类型进行加速器测试。
+ 韧性功能，包括[自动恢复](https://docs.amazonaws.cn/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html#sagemaker-hyperpod-resiliency-slurm-auto-resume)和[深度运行状况检查](https://docs.amazonaws.cn/sagemaker/latest/dg/sagemaker-hyperpod-eks-resiliency-deep-health-checks.html)。

#### 集群停机时间和可用性


在升级过程中，集群将不可用。要最大限度地减少中断，请执行以下操作：
+ 在较小规模的集群上测试升级过程。
+ 在升级前创建检查点，然后在升级完成后，从现有检查点重新启动训练工作负载。

### 排查升级失败问题


在升级失败后，先确定失败是否与生命周期脚本有关。这些脚本通常会因语法错误、依赖项缺失或配置不正确而失败。

要调查与生命周期脚本相关的故障，请查看 CloudWatch 日志。所有 SageMaker HyperPod 事件和日志都存储在日志组下：`/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]`。请重点查看日志流 `LifecycleConfig/[instance-group-name]/[instance-id]`，它会提供脚本执行过程中所有错误的详细信息。

如果升级失败与生命周期脚本无关，请收集相关信息（包括集群 ARN、错误日志和时间戳），然后联系 [Amazon Support](https://www.amazonaws.cn/premiumsupport/) 以寻求进一步帮助。

## SageMaker HyperPod AMI 在 Slurm 上发布：2025 年 5 月 7 日
2025 年 5 月 7 日

亚马逊fo SageMaker HyperPod r Slurm发布了Ubuntu 22.04（从之前的Ubuntu 20.04）的主要操作系统版本升级。有关更多信息，请查看 DLAMI Ubuntu 22.04（[发行说明](https://www.amazonaws.cn/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/)）：`Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503`。

关键软件包升级：
+ Ubuntu 22.04 LTS（升级自 20.04）
+ Python 版本：
  + Python 3.10 现在是 Slurm AMI Ubuntu 22.04 中的默认 Python 版本
  + 此次升级可让您获得 Python 3.10 中引入的最新功能、性能改进以及错误修复。
+ Support 对 EFA 的支持 FSx
+ 新 Linux 内核版本 6.8（更新自 5.15）
+ Glibc 版本：2.35（更新自 2.31）
+ GCC 版本：11.4.0（更新自 9.4.0）
+ 更新的 libc6 版本支持（更新自 libc6 版本 2.31 或更低版本）
+ NFS 版本：1:2.6.1（更新自 1:1.3.4）

## SageMaker HyperPod AMI 在 Slurm 上发布：2025 年 4 月 28 日
2025 年 4 月 28 日

**对 Slurm 的改进**
+ 已将 NVIDIA 驱动程序从版本 550.144.03 升级至版本 550.163.01。此次升级旨在解决 [2025 年 4 月 NVIDIA GPU 显示屏安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5630)中存在的常见漏洞和漏洞 (CVEs)。

**亚马逊 SageMaker HyperPod DLAMI 支持 Slurm**

------
#### [ Installed the latest version of Amazon Neuron SDK ]
+ **aws-neuronx-collectives: 2.24.59.** 0-838c7fc8b
+ **aws-neuronx-dkms: 2.20** .28.0
+ **aws-neuronx-runtime-lib:** 2.24.53.0-f239092cc
+ **aws-neuronx-tools/unknown：2.22.61.0**

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2025 年 2 月 18 日
2025 年 2 月 18 日

**对 Slurm 的改进**
+ 已将 Slurm 版本升级至 24.11.
+ 已将 Elastic Fabric Adapter（EFA）版本从 1.37.0 升级至 1.38.0。
+ EFA 现在包含 Amazon OFI NCCL 插件。您可以在 `/opt/amazon/ofi-nccl` 目录中而非原始 `/opt/aws-ofi-nccl/` 位置找到此插件。如果您需要更新 `LD_LIBRARY_PATH` 环境变量，请务必修改路径以指向 OFI NCCL 插件的新 `/opt/amazon/ofi-nccl` 位置。
+ 从这些 DLAMIs软件包中移除了 emacs 软件包。您可以从 GNU emac 安装 emacs。

**亚马逊 SageMaker HyperPod DLAMI 支持 Slurm**

------
#### [ Installed the latest version of Amazon Neuron SDK 2.19 ]
+ **aws-neuronx-collectives/unknown：**2.23.135.0-3e70920f2 amd64
+ **aws-neuronx-dkms/unknown：**2.19.64.0 amd64
+ **aws-neuronx-runtime-lib/unknown：**2.23.112.0-9b5179492 amd64
+ **aws-neuronx-tools/unknown：**2.20.204.0 amd64

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 12 月 21 日
2024 年 12 月 21 日

**SageMaker HyperPod DLAMI 支持 Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ **NVIDIA 驱动程序：**550.127.05
+ **EFA 驱动程序：**2.13.0-1
+ 已安装最新版本的 Ne Amazon uron SDK
  + **aws-neuronx-collectives:** 2.22.33.0
  + **aws-neuronx-dkms: 2.18.20** .0
  + **aws-neuronx-oci-hook: 2.5.** 8.0
  + **aws-neuronx-runtime-lib: 2.22.19** .0
  + **aws-neuronx-tools: 2.19** .0.0

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 11 月 24 日
2024 年 11 月 24 日

**AMI 常规更新**
+ 已在 `MEL`（墨尔本）区域发布。
+ 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本：
  + Slurm：2024-11-22。

## SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 11 月 15 日
2024 年 11 月 15 日

**AMI 常规更新**
+ 已安装最新的 `libnvidia-nscq-xxx` 软件包。

**SageMaker HyperPod DLAMI 支持 Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ **NVIDIA 驱动程序：**550.127.05
+ **EFA 驱动程序：**2.13.0-1
+ 已安装最新版本的 Ne Amazon uron SDK
  + **aws-neuronx-collectives: v2.22.33.0**-d2128d1aa
  + **aws-neuronx-dkms: v2.17.17** .0
  + **aws-neuronx-oci-hook: v2.4.** 4.0
  + **aws-neuronx-runtime-lib: v2.21.4** 1.0
  + **aws-neuronx-tools: v2.18.** 3.0

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 11 月 11 日
2024 年 11 月 11 日

**AMI 常规更新**
+ 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本：
  + Slurm：2024-10-23。

## SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 10 月 21 日
2024 年 10 月 21 日

**AMI 常规更新**
+ 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本：
  + Slurm：2024-09-27。

## SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 9 月 10 日
2024 年 9 月 10 日

**SageMaker HyperPod DLAMI 支持 Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ 安装 NVIDIA 驱动程序 v550.90.07
+ 安装 EFA 驱动程序 v2.10
+ 已安装最新版本的 Ne Amazon uron SDK
  + **aws-neuronx-collectives: v2.21.4** 6.0
  + **aws-neuronx-dkms: v2.17.17** .0
  + **aws-neuronx-oci-hook: v2.4.** 4.0
  + **aws-neuronx-runtime-lib: v2.21.4** 1.0
  + **aws-neuronx-tools: v2.18.** 3.0

------

## SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 3 月 14 日
2024 年 3 月 14 日

**HyperPod 适用于 Slurm 的 DLAMI 软件补丁**
+ 将 [Slurm](https://slurm.schedmd.com/documentation.html) 升级至 v23.11.1
+ 添加了 [Op PMIx en](https://openpmix.github.io/code/getting-the-reference-implementation) v4.2.6，用于启用 [Slurm](https://slurm.schedmd.com/mpi_guide.html#pmix)。 PMIx
+ 基于 [Amazon 发布的深度学习基础 GPU AMI (Ubuntu 20.04)](https://www.amazonaws.cn/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-20-04/) 于 2023 年 10 月 26 日发布
+ 除基本 AMI 外，还包含此 D HyperPod LAMI 中预装软件包的完整列表
  + [Slurm](https://slurm.schedmd.com/documentation.html)：v23.11.1
  + [打开PMIx ：v4.2.](https://openpmix.github.io/code/getting-the-reference-implementation) 6
  + Munge：v0.5.15
  + `aws-neuronx-dkms`：v2.\$1
  + `aws-neuronx-collectives`：v2.\$1
  + `aws-neuronx-runtime-lib`：v2.\$1
  + `aws-neuronx-tools`：v2.\$1
  + SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包

**升级步骤**
+ 运行以下命令调用 [UpdateClusterSoftware](https://docs.amazonaws.cn/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API，使用最新的 HyperPod DLAMI 更新现有 HyperPod 集群。要了解更多说明，请参阅 [更新集群的 SageMaker HyperPod 平台软件](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)。
**重要**  
运行此 API 前，请备份您的工作。打补丁过程会用更新的 AMI 替换根卷，这意味着存储在实例根卷中的先前数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。 FSx 有关更多信息，请参阅 [使用提供的备份脚本 SageMaker HyperPod](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software-backup)。

  ```
   aws sagemaker update-cluster-software --cluster-name your-cluster-name
  ```
**注意**  
请注意，您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

## SageMaker HyperPod AMI 在 Slurm 上发布：2023 年 11 月 29 日
2023 年 11 月 29 日

**HyperPod 适用于 Slurm 的 DLAMI 软件补丁**

 HyperPod 服务团队通过[SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami)分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。
+ 基于 [Amazon 发布的深度学习基础 GPU AMI (Ubuntu 20.04)](https://www.amazonaws.cn/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-20-04/) 于 2023 年 10 月 18 日发布
+ 除基本 AMI 外，还包含此 D HyperPod LAMI 中预装软件包的完整列表
  + [Slurm](https://slurm.schedmd.com/documentation.html)：v23.02.3
  + Munge：v0.5.15
  + `aws-neuronx-dkms`：v2.\$1
  + `aws-neuronx-collectives`：v2.\$1
  + `aws-neuronx-runtime-lib`：v2.\$1
  + `aws-neuronx-tools`：v2.\$1
  + SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包