特定于群集的配置 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

特定于群集的配置

SageMaker HyperPod 提供了在不同集群环境中运行训练作业的灵活性。每个环境都有自己的配置要求和设置过程。本节概述了在 SageMaker HyperPod Slurm、 SageMaker HyperPod k8s 中运行训练作业和训练作业所需的步骤和配置。 SageMaker 了解这些配置对于在所选环境中有效利用分布式训练的力量至关重要。

您可以在以下集群环境中使用配方:

  • SageMaker HyperPod Slurm 编排

  • SageMaker HyperPod 亚马逊 Elastic Kubernetes Service 编排

  • SageMaker 培训工作

要在集群中启动训练作业,请设置并安装相应的集群配置和环境。