在 Amazon A SageMaker I 中的异构集群上运行分布式训练

通过 SageMaker AI 估算器类的distribution参数，您可以分配特定的实例组来运行分布式训练。例如，假定您有以下两个实例组，并且想在其中一个实例组上运行多 GPU 训练。


from sagemaker.instance_group import InstanceGroup

instance_group_1 = InstanceGroup("instance_group_1", "ml.c5.18xlarge", 1)
instance_group_2 = InstanceGroup("instance_group_2", "ml.p3dn.24xlarge", 2)

您可以为其中一个实例组设置分布式训练配置。例如，以下代码示例说明如何将带两个 ml.p3dn.24xlarge 实例的 training_group_2 分配给分布式训练配置。

注意

目前，只能为分发配置指定异构群集的一个实例组。

使用 MPI

借助 A SageMaker I 数据 parallel 库

注意

使用 SageMaker AI 数据并行库时，请确保实例组由库支持的实例类型组成。

有关 SageMaker AI 数据并行库的更多信息，请参阅 SageMaker AI 数据并行训练。

使用 A SageMaker I 模型并行库

有关 SageMaker AI 模型并行库的更多信息，请参阅 SageMaker AI 模型并行训练。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

在 Amazon A SageMaker I 中使用异构集群配置训练作业

修改训练脚本以分配实例组