SageMaker 模型并行度库 v2 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 模型并行度库 v2

注意

自 SageMaker 模型并行度 (SMP) 库 v2.0.0 于 2023 年 12 月 19 日发布以来,SMP 库 v2 的本文档已更新。有关 SMP 库的早期版本,请参见(已存档) SageMaker 模型并行度库 v1.x

Amazon SageMaker 模型并行度库是一种在 SageMaker 加速计算实例上实现高性能和优化大规模训练的功能。 SageMaker SageMaker 模型并行度库 v2 的核心功能其中包括用于加速和简化大型模型训练的技术和优化,例如混合分片数据并行性、张量并行性、激活检查点和激活卸载。您可以使用 SMP 库来加速具有数千亿个参数的大型语言模型 (LLM)、大型视觉模型 (LVM) 和基础模型 (FM) 的训练和微调。

SageMaker 模型并行度库 v2 (SMP v2) 将该库的 API 和方法与开源的 PyTorch 完全分片数据并行性 (FSDP) 保持一致,这使您只需最少的代码更改即可获得 SMP 性能优化的好处。借助 SMP v2,您可以将 PyTorch FSDP 训练脚本引入,从而提高在 state-of-the-art 大型模型上训练 SageMaker 的计算性能。 SageMaker

您可以将 SMP v2 用于集群上的SageMaker HyperPod常规SageMaker 训练作业和分布式训练工作负载。