SageMaker的分布式模型并行 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker的分布式模型并行

使用 AmazonSageMaker的分布式模型并行库,用于训练由于 GPU 内存限制而难以训练的大型深度学习 (DL) 模型。该库自动高效地将模型拆分到多个 GPU 和实例之间。使用该库,您可以通过高效训练具有数十亿或万亿参数的大型 DL 模型,更快地实现目标预测准确性。

你可以使用库自动分区你自己的TensorFlow和PyTorch跨多个 GPU 和多个节点的模型只需最少的代码更改。您可以通过SageMakerPython 开发工具包。

有关模型并行性的更多信息,请参阅以下部分。SageMaker模型并行库。该库的 API 文档位于分布式训练 API中的SageMakerPython 开发工具包.

要跟踪库的最新更新,请参阅SageMaker分布式模型并行发行说明中的SageMakerPython 开发工具包.