本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker HyperPod 发行说明
请参阅以下发行说明,了解Amazon的最新更新 SageMaker HyperPod。
SageMaker HyperPod 发布说明:2024 年 6 月 20 日
新功能
-
增加了向 SageMaker HyperPod 集群实例附加额外存储空间的新功能。借助此功能,您可以在集群创建或更新过程中,通过 SageMaker HyperPod 控制台或
CreateCluster
和UpdateCluster
API 在实例组配置级别配置补充存储。额外的 EBS 卷将连接到 SageMaker HyperPod 集群中的每个实例并挂载到。/opt/sagemaker
要了解有关在 SageMaker HyperPod 集群中实现它的更多信息,请参阅以下页面上更新的文档。请注意,您需要更新 HyperPod 群集软件才能使用此功能。修补 HyperPod 群集软件后,您可以通过添加新的实例组将此功能用于在 2024 年 6 月 20 日之前创建的现有 SageMaker HyperPod 集群。此功能对于 2024 年 6 月 20 日之后创建的任何 SageMaker HyperPod 集群完全有效。
升级步骤
-
运行以下命令调用UpdateCluster软件 API,使用最新的 HyperPod DLAMI 更新现有 HyperPod集群。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件。
重要
在运行此 API 之前,请备份您的工作。修补过程将根卷替换为更新后的 AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon FSx for Lustre。有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
SageMaker HyperPod 发布说明:2024 年 4 月 24 日
错误修复
-
修复了
ClusterInstanceGroupSpecification
API 中ThreadsPerCore
参数的错误。修复后,CreateCluster
和UpdateCluster
API 可以正确地接受和应用用户输入ThreadsPerCore
。此修复对 2024 年 4 月 24 日之后创建的 HyperPod 集群生效。如果您遇到此错误的问题,并希望将此修复应用于您的集群,则需要创建一个新集群。在移动到新集群时,请务必按照中的说明备份和恢复工作使用提供的备份脚本 SageMaker HyperPod。
SageMaker HyperPod 发布说明:2024 年 3 月 27 日
HyperPod 软件补丁
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。
-
在此版本的 HyperPod DLAMI 中,Slurm 使用支持 JSON、YAML 和 JWT 的 REST 服务
slurmestd
() 构建。
升级步骤
-
运行以下命令调用UpdateCluster软件 API,使用最新的 HyperPod DLAMI 更新现有 HyperPod集群。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件。
重要
在运行此 API 之前,请备份您的工作。修补过程将根卷替换为更新后的 AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon FSx for Lustre。有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
改进
-
将自动恢复服务超时时间延长至 60 分钟。
-
改进了实例替换流程,使其不重启 Slurm 控制器。
-
改进了运行生命周期脚本时产生的错误消息,例如实例启动时的下载错误和实例运行状况检查错误。
错误修复
-
修复了 chrony 服务中导致时间同步出现问题的错误。
-
修复了解析
slurm.conf
错误。 -
修复了 NVIDIA
go-dcgm
库的问题。
SageMaker HyperPod 发布说明:2024 年 3 月 14 日
HyperPod 软件补丁
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。
-
在 2023-10-26 发布的Amazon 深度学习基础 GPU AMI (Ubuntu 20.04)
的基础上构建 -
除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表
升级步骤
-
运行以下命令调用UpdateCluster软件 API,使用最新的 HyperPod DLAMI 更新现有 HyperPod集群。要查找更多说明,请参阅更新集群的 SageMaker HyperPod 平台软件。
重要
在运行此 API 之前,请备份您的工作。修补过程将根卷替换为更新后的 AMI,这意味着您之前存储在实例根卷中的数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon FSx for Lustre。有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
请注意,您应该运行 Amazon CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
改进
-
HyperPod 现在可以正确地支持传递通过提供的分区名称,
provisioning_params.json
并根据提供的输入适当创建分区。有关provisioning_params.json
的更多信息,请参阅 SageMaker HyperPod 生命周期配置最佳实践和 SageMaker HyperPod 表格。
SageMaker HyperPod 发布说明:2024 年 2 月 15 日
新功能
-
添加了用于 SageMaker HyperPod 安全补丁的新
UpdateClusterSoftware
API。当安全补丁可用时,我们建议您通过运行来更新账户中的现有 SageMaker HyperPod 集群aws sagemaker update-cluster-software --cluster-name
。要跟进 future 的安全补丁,请继续跟踪此 Amazon SageMaker HyperPod 发行说明页面。要了解your-cluster-name
UpdateClusterSoftware
API 的工作原理,请参阅更新集群的 SageMaker HyperPod 平台软件。
SageMaker HyperPod 发布说明:2023 年 11 月 29 日
新功能
-
在 re Amazon : Inv SageMaker HyperPod ent 2023 上推出了亚马逊。
HyperPod 软件补丁
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。
-
基于 2023-10-Amazon 18 发布的深度学习基础 GPU AMI (Ubuntu 20.04)
-
除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表
-
Slurm
:v23.02.3 -
Munge:v0.5.15
-
aws-neuronx-dkms
: v2。 * -
aws-neuronx-collectives
: v2。 * -
aws-neuronx-runtime-lib
: v2。 * -
aws-neuronx-tools
: v2。 * -
SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包
-