使用 SageMaker 数据并行库修改训练脚本 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker 数据并行库修改训练脚本

脚本修改概述

SageMaker 的分布式数据并行库(库)API 旨在易于使用,并提供与现有分布式培训工具包的无缝集成。

  • 将 Python 开发工具包与库 API 开发工具包 SageMaker 合使用:在大多数情况下,您需要在训练脚本中更改的只是 Horovod 或其他数据并行库导入语句。使用 SageMaker 数据并行库等效项交换它们。

  • 专注于模型培训,无需基础架构管理:在 SageMaker 上使用库训练深度学习模型时,您可以专注于模型训练,而 SageMaker 则进行集群管理:调出节点并创建集群,完成培训,然后拆卸集群。

要自定义训练脚本,您需要执行以下操作:

  • 您必须提供适合使用库的 TensorFlow/pytorch 训练脚本。以下部分提供了相应的示例代码。

  • 您的输入数据必须位于 S3 存储桶中或FSx中的Amazon您将用于启动培训作业的区域。如果您使用提供的 Jupyter 笔记本,请在包含您输入数据的存储桶所在的区域中创建一个 SageMaker 笔记本实例。有关存储训练数据的更多信息,请参阅SageMaker Python 软件开发工具包数据输入文档。

提示

考虑使用 FSX 而不是 Amazon S3 来提高培训绩效。与 Amazon S3 相比,它具有更高的吞吐量和更低的延迟。

使用以下部分查看有关将库适应 TensorFlow 或 PyTorch 训练脚本的示例。启动培训作业后,您可以使用Amazon SageMaker 调试程序或 Amazon CloudWatch。