特定于集群的配置 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

特定于集群的配置

SageMaker HyperPod 提供了在不同集群环境中运行训练作业的灵活性。每个环境均有自己的配置要求和设置过程。本节概述了在 SageMaker HyperPod Slurm、 SageMaker HyperPod k8s 中运行训练作业和训练作业所需的步骤和配置。 SageMaker 了解这些配置非常重要,有助于您在所选环境中高效利用分布式训练的能力。

可在以下集群环境中使用配方:

  • SageMaker HyperPod Slurm 编排

  • SageMaker HyperPod 亚马逊 Elastic Kubernetes Service 编排

  • SageMaker 培训工作

要在集群中启动训练作业,请设置并安装相应的集群配置和环境。