(已存档) SageMaker 模型并行度库 v1.x - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

(已存档) SageMaker 模型并行度库 v1.x

重要

自 2023 年 12 月 19 日起, SageMaker 模型并行度 (SMP) 库 v2 已发布。取而代之的是 SMP 库 v2,在未来的版本中将不再支持 SMP v1 功能。以下部分和主题已存档,并且特定于使用 SMP 库 v1。有关使用 SMP 库 v2 的信息,请参阅。了解 SageMaker 模型并行度库 v2

使用 Amazon SageMaker 的模型并行库来训练由于 GPU 内存限制而难以训练的大型深度学习 (DL) 模型。该库会自动将在多个 GPU 和实例之间高效地拆分模型。使用该库,您可以高效地训练具有数十亿或万亿参数的大型 DL 模型,从而更快地获得目标预测准确性。

您可以使用该库将自己的 PyTorch 模型 TensorFlow 和模型自动分成多个 GPU 和多个节点,只需最少的代码更改。你可以通过 SageMaker Python 软件开发工具包访问该库的 API。

使用以下章节来了解有关模型并行性和模型并 SageMaker 行库的更多信息。该库的 API 文档位于 SageMaker Python SDK v2.199. 0 文档中的分布式训练 API 中。