使用模型并行度运行 SageMaker 分布式训练 Job - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用模型并行度运行 SageMaker 分布式训练 Job

学习如何使用带有模型并行度库的 Pyth SageMaker on SDK 运行自己的训练脚本的 SageMaker 模型并行训练作业。

运行 SageMaker 训练作业有三种用例场景。

  1. 您可以将预先构建的 Amazon 深度学习容器之一用于 TensorFlow 和。 PyTorch如果这使您首次使用模型并行库,则建议使用此选项。要查找有关如何运行 SageMaker 模型并行训练作业的教程,请参阅使用 Amazon 的模型并行度库进行PyTorch 训练 SageMaker的示例笔记本。

  2. 您可以扩展预先构建的容器,以处理预构建的 SageMaker Docker 镜像不支持的算法或模型的任何其他功能要求。要查找如何扩展预构建容器的示例,请参阅扩展预构建容器

  3. 您可以使用SageMaker 培训工具包调整自己的 Docker 容器以使其与之配合 SageMaker 使用。有关示例,请参阅调整您自己的训练容器

对于前述列表中的选项 2 和 3,请参阅扩展包含分布式模型并行库的预构建 SageMaker的 Docker 容器,以了解如何在扩展或自定义的 Docker 容器中安装模型并行库。

在所有情况下,您都可以启动训练作业,配置 SageMaker TensorFlowPyTorch或估算器以激活库。要了解更多信息,请参阅以下主题。