运行 SageMaker 具有数据并行性的分布式培训 Job - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

运行 SageMaker 具有数据并行性的分布式培训 Job

SageMaker 的分布式数据 parallel 库 API 旨在便于使用,并提供与现有分布式培训工具包的无缝集成。

  • 使用库 API 的 SageMaker Python 开发工具包— 在大多数情况下,训练脚本中只需更改数据 parallel 库导入语句。将这些交换成 SageMaker 数据 parallel 库等价物。

  • 无需基础架构管理,专注于模型培训— 在 SageMaker 上使用库训练深度学习模型时,您可以专注于编写训练脚本和模型训练。你可以使用由 SageMaker Python 开发工具包。估计器类有助于准备 ML 实例、从指定的数据资源加载数据集、使用训练脚本提交训练作业,以及在训练作业完成后关闭实例。

要开始操作,您需要适应 TensorFlow 要么 PyTorch 训练脚本以使用库。以下主题提供了有关如何修改训练脚本的说明。