使用分布式数据并行度库运行 SageMaker 分布式训练 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用分布式数据并行度库运行 SageMaker 分布式训练

SageMaker 分布式数据并行度 (SMDDP) 库通过提供针对基础设施优化的集体通信操作的实现,扩展了深度学习模型的 SageMaker 训练能力,具有近线性的扩展效率。 Amazon

在庞大的训练数据集上训练大型机器学习 (ML) 模型(例如大型语言模型 (LLM) 和扩散模型)时,机器学习从业者使用加速器集群和分布式训练技术来缩短训练时间或解决无法容纳每个 GPU 内存的模型的内存限制。机器学习从业者通常在单个实例上使用多个加速器,然后随着工作负载需求的增加扩展到实例集群。随着集群规模的增加,多个节点之间的通信开销也会增加,从而导致整体计算性能下降。

为了解决此类开销和内存问题,SMDDP 库提供了以下内容。

  • SMDDP 库优化了 Amazon 网络基础设施和 Amazon M SageMaker L 实例拓扑的训练作业。

  • SMDDP 库通过实现针对基础架构进行了优AllReduce化的AllGather集体通信操作来改善节点之间的通信。 Amazon

要了解有关 SMDDP 库产品详细信息的更多信息,请继续。 SageMaker 分布式数据并行库简介

有关使用提供的模型并行策略进行训练的更多信息 SageMaker,另请参阅。(已存档) SageMaker 模型并行度库 v1.x