利用 SageMaker AI 分布式数据并行库运行分布式训练 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

利用 SageMaker AI 分布式数据并行库运行分布式训练

SageMaker AI 分布式数据并行(SMDDP)库通过为 Amazon 基础设施优化集体通信操作的实施,扩展了 SageMaker 在深度学习模型上的训练能力,并实现了接近线性扩展的效率。

当在庞大的训练数据集上训练大型机器学习 (ML) 模型(例如大型语言模型(LLM)和扩散模型)时,ML 从业人员会使用加速器集群和分布式训练技术来缩短训练时间,或解决每个 GPU 内存无法容纳的模型的内存限制问题。ML 从业人员通常先在单个实例上使用多个加速器,然后随着工作负载需求的增加扩展到实例集群。随着集群规模的扩大,多个节点之间的通信开销也会增加,从而导致整体计算性能下降。

为了解决此类开销和内存问题,SMDDP 库提供了以下内容。

  • SMDDP 库针对 Amazon 网络基础设施和 Amazon SageMaker AI ML 实例拓扑,对您的训练作业进行优化。

  • SMDDP 库通过针对 Amazon 基础架构优化的 AllReduceAllGather 集体通信操作的实现,改善了节点之间的通信。

要了解有关 SMDDP 库产品详细信息的更多信息,请继续 SageMaker AI 分布式数据并行库简介

有关使用 SageMaker AI 提供的模型并行策略进行训练的更多信息,另请参阅 (已存档)SageMaker 模型并行性库 v1.x