SageMaker 的分布式模型并行 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 的分布式模型并行

重要

要将新功能与现有笔记本实例或 Studio 应用程序一起使用,请重新启动该实例以获取最新更新。

Amazon SageMaker 的分布式模型并行库(库)可用于训练以前由于 GPU 内存限制而难以训练的大型深度学习模型。该库自动高效地跨多个 GPU 和实例分割模型,并协调模型训练,从而通过创建具有更多参数的较大模型来提高预测准确性。

您可以使用该库在多个 GPU 上自动分区现有的 TensorFlow 和 PyTorch 工作负载,只需最少的代码更改。您可以通过 SageMaker 软件开发工具包访问库的 API。

使用以下部分了解有关模型并行性和 SageMaker 模型并行库的更多信息。此库的 API 文档位于 SageMaker Python 软件开发工具包中分布式训练 API. 要查看库的最新更新,请参阅发布说明.