本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker的分布式模型并行
使用 AmazonSageMaker的分布式模型并行库,用于训练由于 GPU 内存限制而难以训练的大型深度学习 (DL) 模型。该库自动高效地将模型拆分到多个 GPU 和实例之间。使用该库,您可以通过高效训练具有数十亿或万亿参数的大型 DL 模型,更快地实现目标预测准确性。
你可以使用库自动分区你自己的TensorFlow和PyTorch跨多个 GPU 和多个节点的模型只需最少的代码更改。您可以通过SageMakerPython 开发工具包。
有关模型并行性的更多信息,请参阅以下部分。SageMaker模型并行库。该库的 API 文档位于分布式训练 API
要跟踪库的最新更新,请参阅SageMaker分布式模型并行发行说明
主题