使用模型并行性运行 SageMaker 分布式训练作业 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用模型并行性运行 SageMaker 分布式训练作业

SageMaker 的分布式数据并行库 API 为方便使用而设计,提供与现有分布式训练工具包的无缝集成。

  • SageMaker Python SDK 与库 API – 在大多数情况下,您只需要在训练脚本中更改数据并行库导入语句。将这些语句更换为 SageMaker 数据并行库的等效语句。

  • 专注于模型训练,无需管理基础设施 – 在 SageMaker 上使用库训练深度学习模型时,您可以将重心完全放在编写训练脚本和模型训练上。您可以使用 SageMaker Python SDK 提供的估算器类来运行训练作业。估算器类可协助准备 ML 实例、从指定的数据资源加载数据集、使用您的训练脚本提交训练作业,并在训练作业完成后关闭实例。

首先,您需要调整 TensorFlow 或 PyTorch 训练脚本以使用库。以下主题提供了有关如何修改训练脚本的说明。