使用模型并行运行 SageMaker 分布式训练Job - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用模型并行运行 SageMaker 分布式训练Job

学习如何使用 SageMaker Python SDK 以及您自己的训练脚本和模型并行度库 SageMaker来运行模型并行训练作业。

运行 SageMaker 训练作业有三种用例场景:

  1. 您可以将预先构建的Amazon深度学习容器之一用于 TensorFlow 和 PyTorch。如果您是第一次使用模型parallel 库,建议使用此选项。要查找有关如何运行 SageMaker 模型parallel 训练作业的教程,请参阅使用亚马逊 SageMaker的模型并行度库进行PyTorch 训练的示例笔记本。

  2. 您可以扩展预建容器,以处理预构建的 SageMaker Docker 镜像不支持的算法或模型的任何其他功能要求。要查找如何扩展预建容器的示例,请参阅扩展预建容器

  3. 您可以使用SageMaker 训练工具包调整自己的 Docker 容器以供 SageMaker 使用。有关示例,请参阅调整自己的训练容器

有关前面列表中的选项 2 和 3,请参阅了解扩展包含分布式模型并行库的预建 SageMaker的 Docker 容器如何在扩展或自定义 Docker 容器中安装模型parallel 库。

在所有情况下,您都可以启动训练作业,配置 SageMaker TensorFlowPyTorch估算器来初始化库。要了解更多信息,请参阅以下主题。