亚马逊 SageMaker HyperPod 发行说明 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 SageMaker HyperPod 发行说明

本主题涵盖跟踪亚马逊更新、修复和新功能的发行说明 SageMaker HyperPod。如果您正在寻找Amazon的一般功能发布、更新和改进 SageMaker HyperPod,您可能会发现此页面很有帮助。

HyperPod AMI 版本单独记录,包括关键组件的信息,包括常规 AMI 版本、版本和依赖关系。如果您正在寻找与 HyperPod AMI 版本相关的信息,请参阅亚马逊 SageMaker HyperPod AMI 发布

SageMaker HyperPod 发布说明:2025 年 3 月 16 日

SageMaker HyperPod 为使用 Slurm 编排 SageMaker HyperPod 集群和发布以下内容使用 Amazon EKS 编排 SageMaker HyperPod 集群

新功能和改进

SageMaker HyperPod 发布说明:2025 年 2 月 20 日

SageMaker HyperPod 为使用 Slurm 编排 SageMaker HyperPod 集群和发布以下内容使用 Amazon EKS 编排 SageMaker HyperPod 集群

新功能和改进

  • 增加了对从 SageMaker HyperPod 集群中删除实例组的支持。有关更多信息,请参阅 删除实例组 EKS 编排集群和 SLURM 编排集群。缩小集群

SageMaker HyperPod 发布说明:2025 年 2 月 18 日

SageMaker HyperPod 为使用 Slurm 编排 SageMaker HyperPod 集群和发布以下内容使用 Amazon EKS 编排 SageMaker HyperPod 集群

新特征

  • 此版本 SageMaker HyperPod 包含来自 Nvidia 容器工具包的安全更新(从 1.17.3 版到 1.17.4 版)。有关更多信息,请参阅 v1.17.4 发行说明

    注意

    对于 Nvidia 容器工具包版本 1.17.4 中的所有容器工作负载,现已禁用 CUDA 兼容性库的挂载。为确保与容器工作流程中的多个 CUDA 版本兼容,请更新LD_LIBRARY_PATH以包含您的 CUDA 兼容性库。您可以在中找到具体步骤如果您使用 CUDA 兼容层

有关相关 AMI 版本的信息,请参阅SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 2 月 18 日SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 2 月 18 日

SageMaker HyperPod 发布说明:2025 年 2 月 6 日

SageMaker HyperPod 为使用 Slurm 编排 SageMaker HyperPod 集群和发布以下内容使用 Amazon EKS 编排 SageMaker HyperPod 集群

新功能和改进

  • 增强的 SageMaker HyperPod 多可用区支持:您可以为集群中的各个实例组指定不同的子网和安全组,跨越不同的可用区。有关 SageMaker HyperPod多可用区支持的更多信息,请参阅跨多个 SageMaker HyperPod 集群设置 AZs

SageMaker HyperPod 发布说明:2025 年 1 月 22 日

AMI 发布

SageMaker HyperPod 发布说明:2025 年 1 月 9 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新功能和改进

SageMaker HyperPod 发布说明:2024 年 12 月 21 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • SageMaker HyperPod 现在,Slurm 和 Amazon EKS 集群都支持以下实例类型。

    • 新的实例类型:c6gN、c6i、m6i、R6i。

    • 新的 Trainium 实例类型:Trn1 和 trn1n。

改进

  • 增强了 Slurm 中断作业时的错误记录可见性,并防止在 Slurm 启动的作业取消期间不必要的任务步骤终止。

  • 更新了 Slurm 和 Amazon EKS 集群的 p5en 基础 DLAMI。

AMI 发布

SageMaker HyperPod 发布说明:2024 年 12 月 13 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • SageMaker HyperPod 发布了一组 Amazon CloudWatch 指标,用于监控 SageMaker HyperPod Slurm 集群的运行状况和性能。这些指标与 CPU、GPU、内存利用率以及集群实例信息(例如节点数和故障节点)有关。默认情况下,此监控功能处于启用状态,并且可以在/aws/sagemaker/Clusters CloudWatch 命名空间下访问指标。您还可以根据这些指标设置 CloudWatch 警报,以主动检测和解决基于 SLURM HyperPod 的集群中的潜在问题。有关更多信息,请参阅 Amazon SageMaker HyperPod Slurm 指标

AMI 发布

SageMaker HyperPod 发布说明:2024 年 11 月 24 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

AMI 发布

SageMaker HyperPod 发布说明:2024 年 11 月 15 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。有关更多信息,请参阅和SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 11 月 15 日

新功能和改进

  • 为 Amazon EKS 和 Slurm 编排集群添加了对 trn1 和 trn1n 实例类型的支持。

  • 改进了 Slurm 集群的日志管理:

    • 实现了日志轮换:根据大小每周或每天。

    • 将日志保留时间设置为 3 周。

    • 压缩日志以减少对存储的影响。

    • 继续将日志上传到, CloudWatch 以便长期保留。

      注意

      有些日志仍存储在系统日志中。

  • 调整了 Fluent Bit 设置,以防止跟踪包含长行的文件时出现问题。

错误修复

  • 通过更新配置文件中的 Slurm 控制器节点,防止意外截断。slurm.config

AMI 发布

SageMaker HyperPod 发布说明:2024 年 11 月 11 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • SageMaker HyperPod AMI 现在支持 G6e 实例类型。

AMI 发布

SageMaker HyperPod 发布说明:2024 年 10 月 31 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • 添加了在 Amazon EKS 和 Slurm 编排 SageMaker HyperPod 集群的实例组级别和实例级别缩小集群规模。有关缩小 Amazon EKS 集群的更多信息,请参阅缩小集 SageMaker HyperPod 群。有关缩小 Slurm 集群的更多信息,请参阅中的缩小集群使用 Amazon CLI

  • SageMaker HyperPod 现在支持 Amazon EKS 和 Slurm 编排集群的 P5e 实例类型。

SageMaker HyperPod 发布说明:2024 年 10 月 21 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • SageMaker HyperPod 现在支持 Slurm 和 Amazon EKS 集群的 p5e [n]、G6、Gr6 和 Trn2 [n] 实例类型。

AMI 发布

SageMaker HyperPod 发布说明:2024 年 9 月 10 日

SageMaker HyperPod 为使用 Amazon EKS 编排 SageMaker HyperPod 集群和发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

AMI 发布

SageMaker HyperPod 发布说明:2024 年 8 月 20 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • 增强了SageMaker HyperPod 自动恢复功能,扩展了与通用 RESources (GRES) 连接的 Slurm 节点的弹性功能。

    通用资源(GRES)连接到 Slurm 节点时,Slurm 通常不允许更改节点分配,如更换节点,因此无法恢复失败的作业。除非明确禁止,否则 HyperPod自动恢复功能会自动将任何与启用 GRES 的节点关联的错误作业重新排队。这个过程包括停止作业,将其放回作业队列,然后从头开始重新启动作业。

其他更改

  • 在 SageMaker HyperPod AMI slurmrestd中预先打包。

  • slurm.confResumeTimeoutUnkillableStepTimeout 的默认值从 60 秒改为 300 秒,以提高系统响应速度和任务处理能力。

  • 对 NVIDIA 数据中心 GPU 管理器(DCGM)和 NVIDIA 系统管理界面(nvidia-smi)的运行状况检查进行了细微改进。

错误修复

  • HyperPod 自动恢复插件可以使用空闲节点来恢复作业。

SageMaker HyperPod 发布说明:2024 年 6 月 20 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • 增加了向 SageMaker HyperPod 集群实例附加额外存储空间的新功能。借助此功能,您可以在集群创建或更新过程中,通过 SageMaker HyperPod 控制台或CreateCluster和在实例组配置级别配置补充存储UpdateCluster APIs。额外的 EBS 卷将连接到 SageMaker HyperPod 集群中的每个实例并挂载到。/opt/sagemaker要了解有关在 SageMaker HyperPod 集群中实现它的更多信息,请参阅以下页面上更新的文档。

    请注意,您需要更新 HyperPod 群集软件才能使用此功能。修补 HyperPod 群集软件后,您可以通过添加新的实例组将此功能用于在 2024 年 6 月 20 日之前创建的现有 SageMaker HyperPod 集群。此功能对于 2024 年 6 月 20 日之后创建的任何 SageMaker HyperPod 集群完全有效。

升级步骤

  • 运行以下命令调用 UpdateClusterSoftwareAPI,使用最新的 HyperPod DLAMI 更新现有 HyperPod集群。要了解更多说明,请参阅 更新集群的 SageMaker HyperPod 平台软件

    重要

    运行此 API 前,请备份您的工作。打补丁过程会用更新的 AMI 替换根卷,这意味着存储在实例根卷中的先前数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。 FSx 有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

SageMaker HyperPod 发布说明:2024 年 4 月 24 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

错误修复

SageMaker HyperPod 发布说明:2024 年 3 月 27 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

HyperPod 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。

  • 在此版本的 HyperPod DLAMI 中,Slurm 使用支持 JSON、YAML 和 JWT 的 REST 服务 slurmestd () 构建。

  • Slurm 升级到 v23.11.3。

改进

  • 自动恢复服务超时时间增至 60 分钟。

  • 改进了实例替换流程,使其不会重新启动 Slurm 控制器。

  • 改进了运行生命周期脚本时的错误信息,如下载错误和实例启动时的实例运行状况检查错误。

错误修复

  • 修正了 Chrony 服务的一个错误,该错误导致时间同步问题。

  • 修正了一个解析 slurm.conf 的错误。

  • 修正了 NVIDIA go-dcgm 库的一个问题。

SageMaker HyperPod 发布说明:2024 年 3 月 14 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

改进

AMI 发布

SageMaker HyperPod 发布说明:2024 年 2 月 15 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • 添加了用于 SageMaker HyperPod 安全补丁的新 UpdateClusterSoftware API。当安全补丁可用时,我们建议您通过运行来更新账户中的现有 SageMaker HyperPod 集群aws sagemaker update-cluster-software --cluster-name your-cluster-name。要跟进 future 的安全补丁,请继续跟踪此 Amazon SageMaker HyperPod 发行说明页面。要了解 UpdateClusterSoftware API 的工作原理,请参阅 更新集群的 SageMaker HyperPod 平台软件

SageMaker HyperPod 发布说明:2023 年 11 月 29 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新特征

  • 在 re Amazon : Inv SageMaker HyperPod ent 2023 上推出了亚马逊。

AMI 发布