为 SageMaker HyperPod Slurm 集群设置多个控制器节点 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 SageMaker HyperPod Slurm 集群设置多个控制器节点

本主题介绍如何使用生命周期脚本在 SageMaker HyperPod Slurm 集群中配置多个控制器(头)节点。在开始之前,请查看使用 SageMaker HyperPod 的先决条件中列出的先决条件并熟悉使用生命周期脚本自定义 SageMaker HyperPod集群中的生命周期脚本。本主题中的说明使用的是 Amazon Linux 环境中的Amazon CLI命令。请注意,这些命令中使用的环境变量仅在当前会话中可用,除非将其显式保留。