本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用模型并行度运行 SageMaker 分布式训练 Job
学习如何使用带有模型并行度库的 Pyth SageMaker on SDK 运行自己的训练脚本的 SageMaker 模型并行训练作业。
运行 SageMaker 训练作业有三种用例场景。
-
您可以将预先构建的 Amazon 深度学习容器之一用于 TensorFlow 和。 PyTorch如果这使您首次使用模型并行库,则建议使用此选项。要查找有关如何运行 SageMaker 模型并行训练作业的教程,请参阅使用 Amazon 的模型并行度库进行PyTorch 训练 SageMaker的
示例笔记本。 -
您可以扩展预先构建的容器,以处理预构建的 SageMaker Docker 镜像不支持的算法或模型的任何其他功能要求。要查找如何扩展预构建容器的示例,请参阅扩展预构建容器。
-
您可以使用SageMaker 培训工具包
调整自己的 Docker 容器以使其与之配合 SageMaker 使用。有关示例,请参阅调整您自己的训练容器。
对于前述列表中的选项 2 和 3,请参阅扩展包含分布式模型并行库的预构建 SageMaker的 Docker 容器,以了解如何在扩展或自定义的 Docker 容器中安装模型并行库。
在所有情况下,您都可以启动训练作业,配置 SageMaker TensorFlow
PyTorch
或估算器以激活库。要了解更多信息,请参阅以下主题。