Amazon SageMaker HyperPod 发行说明 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker HyperPod 发行说明

请参阅以下发行说明,了解Amazon的最新更新 SageMaker HyperPod。

SageMaker HyperPod 发布说明:2024 年 6 月 20 日

新功能

  • 增加了向 SageMaker HyperPod 集群实例附加额外存储空间的新功能。借助此功能,您可以在集群创建或更新过程中,通过 SageMaker HyperPod 控制台或CreateClusterUpdateClusterAPI 在实例组配置级别配置补充存储。额外的 EBS 卷将连接到 SageMaker HyperPod 集群中的每个实例并挂载到。/opt/sagemaker要了解有关在 SageMaker HyperPod 集群中实现它的更多信息,请参阅以下页面上更新的文档。

    请注意,您需要更新 HyperPod 群集软件才能使用此功能。修补 HyperPod 群集软件后,您可以通过添加新的实例组将此功能用于在 2024 年 6 月 20 日之前创建的现有 SageMaker HyperPod 集群。此功能对于 2024 年 6 月 20 日之后创建的任何 SageMaker HyperPod 集群完全有效。

升级步骤

  • 运行以下命令调用UpdateCluster软件 API,使用最新的 HyperPod DLAMI 更新现有 HyperPod集群。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件

    重要

    在运行此 API 之前,请备份您的工作。修补过程将根卷替换为更新后的 AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon FSx for Lustre。有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

SageMaker HyperPod 发布说明:2024 年 4 月 24 日

错误修复

SageMaker HyperPod 发布说明:2024 年 3 月 27 日

HyperPod 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。

  • 在此版本的 HyperPod DLAMI 中,Slurm 使用支持 JSON、YAML 和 JWT 的 REST 服务 slurmestd () 构建。

  • Slurm 升级到 v23.11.3

升级步骤

  • 运行以下命令调用UpdateCluster软件 API,使用最新的 HyperPod DLAMI 更新现有 HyperPod集群。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件

    重要

    在运行此 API 之前,请备份您的工作。修补过程将根卷替换为更新后的 AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon FSx for Lustre。有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

改进

  • 将自动恢复服务超时时间延长至 60 分钟。

  • 改进了实例替换流程,使其不重启 Slurm 控制器。

  • 改进了运行生命周期脚本时产生的错误消息,例如实例启动时的下载错误和实例运行状况检查错误。

错误修复

  • 修复了 chrony 服务中导致时间同步出现问题的错误。

  • 修复了解析slurm.conf错误。

  • 修复了 NVIDIA go-dcgm 库的问题。

SageMaker HyperPod 发布说明:2024 年 3 月 14 日

HyperPod 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。

  • Slurm 升级到 v23.11.1

  • 添加了 OpenpMix v4.2.6,用于通过 pMix 启用 Slurm。

  • 在 2023-10-26 发布的Amazon 深度学习基础 GPU AMI (Ubuntu 20.04) 的基础上构建

  • 除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表

    • Slurm:v23.11.1

    • OpenpMix:v4.2.6

    • Munge:v0.5.15

    • aws-neuronx-dkms: v2。 *

    • aws-neuronx-collectives: v2。 *

    • aws-neuronx-runtime-lib: v2。 *

    • aws-neuronx-tools: v2。 *

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包

升级步骤

  • 运行以下命令调用UpdateCluster软件 API,使用最新的 HyperPod DLAMI 更新现有 HyperPod集群。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件

    重要

    在运行此 API 之前,请备份您的工作。修补过程将根卷替换为更新后的 AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon FSx for Lustre。有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

改进

SageMaker HyperPod 发布说明:2024 年 2 月 15 日

新功能

  • 添加了用于 SageMaker HyperPod 安全补丁的新 UpdateClusterSoftware API。当安全补丁可用时,我们建议您通过运行来更新账户中的现有 SageMaker HyperPod 集群aws sagemaker update-cluster-software --cluster-name your-cluster-name。要跟进 future 的安全补丁,请继续跟踪此 Amazon SageMaker HyperPod 发行说明页面。要了解 UpdateClusterSoftware API 的工作原理,请参阅更新集群的 SageMaker HyperPod 平台软件

SageMaker HyperPod 发布说明:2023 年 11 月 29 日

新功能

  • 在 re Amazon : Inv SageMaker HyperPod ent 2023 上推出了亚马逊。

HyperPod 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。

  • 基于 2023-10-Amazon 18 发布的深度学习基础 GPU AMI (Ubuntu 20.04)

  • 除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表

    • Slurm:v23.02.3

    • Munge:v0.5.15

    • aws-neuronx-dkms: v2。 *

    • aws-neuronx-collectives: v2。 *

    • aws-neuronx-runtime-lib: v2。 *

    • aws-neuronx-tools: v2。 *

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包