使用模型并行性运行 SageMaker 分布式训练作业 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用模型并行性运行 SageMaker 分布式训练作业

了解如何使用 SageMaker Python SDK 以及 SageMaker 模型并行性库,通过您自己的训练脚本运行模型并行性训练作业。

运行 SageMaker 训练作业有三种使用场景:

  1. 您可以使用适用于 TensorFlow 和 PyTorch 的预构建 Amazon 深度学习容器之一。如果这使您首次使用模型并行库,则建议使用此选项。要查找有关如何运行 SageMaker 模型并行性训练作业的教程,请参阅 PyTorch 训练与 Amazon SageMaker 的模型并行性库中的示例笔记本。

  2. 您可以扩展预构建的容器,以便在预构建的 SageMaker Docker 映像不支持算法或模型时,满足任何其他功能要求。要查找如何扩展预构建容器的示例,请参阅扩展预构建容器

  3. 您可以使用 SageMaker 训练工具包,调整自己的 Docker 容器来用于 SageMaker。有关示例,请参阅调整您自己的训练容器

对于前述列表中的选项 2 和 3,请参阅扩展包含 SageMaker 分布式模型并行库的预构建 Docker 容器,以了解如何在扩展或自定义的 Docker 容器中安装模型并行库。

在所有情况下,您都需要启动训练作业,配置 SageMaker TensorFlowPyTorch 估算器来激活库。要了解更多信息,请参阅以下主题。