SageMaker 模型并行度库 v2 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 模型并行度库 v2

注意

自 SageMaker 模型并行度 (SMP) 库 v2.0.0 于 2023 年 12 月 19 日发布以来,SMP 库 v2 的本文档已更新。有关先前版本的 SMP 库,请参阅 (已存档) SageMaker 模型并行度库 v1.x

Amazon SageMaker AI 模型并行度库是 SageMaker AI 的一项功能,可实现高性能,并在 SageMaker AI 加速计算实例上优化大规模训练。 SageMaker 模型并行度库 v2 的核心功能 包括加速和简化大型模型训练的技术和优化,例如混合分片数据并行性、张量并行、激活检查点和激活卸载。您可以使用 SMP 库来加速具有数千亿个参数的大型语言模型 (LLMs)、大型视觉模型 (LVMs) 和基础模型 (FMs) 的训练和微调。

SageMaker 模型并行度库 v2 (SMP v2) 将库 APIs 和方法与开源 PyTorch 完全分片数据并行性 (FSDP) 保持一致,这使您只需最少的代码更改即可获得 SMP 性能优化的好处。借助 SMP v2,您可以将 PyTorch FSDP 训练脚本引入 AI,从而提高在 SageMaker AI 上训练 state-of-the-art大型模型的计算性能。 SageMaker

您可以将 SMP v2 用于集群上的Amazon SageMaker HyperPod常规SageMaker 训练作业和分布式训练工作负载。