SageMaker 的模型并行性库 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

SageMaker 的模型并行性库

使用 Amazon SageMaker 的模型并行库来训练由于 GPU 内存限制而难以训练的大型深度学习 (DL) 模型。该库会自动将在多个 GPU 和实例之间高效地拆分模型。使用该库,您可以高效地训练具有数十亿或万亿参数的大型 DL 模型,从而更快地获得目标预测准确性。

使用该库后,您只需最少的代码更改,即可将自己的 TensorFlow 和 PyTorch 模型自动分区到多个 GPU 和多个节点上。您可以通过 SageMaker Python SDK 访问库的 API。

使用以下部分了解有关模型并行性和 SageMaker 模型并行库的更多信息。此库的 API 文档位于《SageMaker Python SDK 文档》分布式训练 API 中。

要查看库的最新更新,请参阅《SageMaker Python SDK 文档》中的 SageMaker 模型并行性发行说明