SageMaker的分布式模型并行 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker的分布式模型并行

重要

要将新功能与现有笔记本实例或 Studio 应用程序结合使用,请重新启动它以获取最新更新。

Amazon SageMaker的分布式模型并行库( 库)可用于训练大型深度学习模型,以前由于 GPU 内存限制而难以训练这些模型。该库自动且有效地将模型拆分到多个 GPUs和实例,并协调模型训练,从而使您能够通过创建具有更多参数的较大模型来提高预测准确性。

您可以使用 库跨多个 GPUs 自动对现有 TensorFlow和 PyTorch 工作负载进行分区,只需进行最少的代码更改。您可以通过 SageMaker 开发工具包访问库的 API。

可以使用以下部分了解有关模型并行度和SageMaker模型并行库的更多信息。此库的 API 文档位于SageMaker分布式训练 APIs 下的 Python 开发工具包中。要查看对库的最新更新,请参阅 发行说明