使用模型并行性运行 SageMaker 分布式训练作业 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用模型并行性运行 SageMaker 分布式训练作业

了解如何使用 SageMaker Python SDK 以及 SageMaker 模型并行性库,通过您自己的训练脚本运行模型并行性训练作业。

运行 SageMaker 训练作业有三种使用场景:

  1. 您可以使用适用于 TensorFlow 和 PyTorch 的预构建 Amazon 深度学习容器之一。如果这使您首次使用模型并行库,则建议使用此选项。要查找有关如何运行 SageMaker 模型并行训练作业的教程,请参阅 PyTorch 训练与 Amazon SageMaker AI 的模型并行库中的示例笔记本。

  2. 您可以扩展预构建的容器,以便在预构建的 SageMaker Docker 映像不支持算法或模型时,满足任何其他功能要求。要查找如何扩展预构建容器的示例,请参阅扩展预构建容器

  3. 您可以使用 SageMaker 训练工具包,调整自己的 Docker 容器来用于 SageMaker AI。有关示例,请参阅调整您自己的训练容器

对于前述列表中的选项 2 和 3,请参阅扩展包含 SageMaker 分布式模型并行库的预构建 Docker 容器,以了解如何在扩展或自定义的 Docker 容器中安装模型并行库。

在所有情况下,您都需要启动训练作业,配置 SageMaker TensorFlowPyTorch 估算器来激活库。要了解更多信息,请参阅以下主题。