SageMaker 的数据并行性库 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

SageMaker 的数据并行性库

SageMaker 数据并行性库能够以近线性的缩放效率,扩展 SageMaker 的深度学习模型训练功能,只需极少的代码更改即可快速开始训练。

在使用大量数据训练模型时,机器学习从业者通常会转向分布式训练,以缩短训练时间。在尤为重视时间的场景中,业务要求是尽快或至少在有限的时间内完成训练。这种情况下,分布式训练可以扩展为使用由多个节点组成的集群,这不仅仅是一个计算实例中的多个 GPU,而是具有多个 GPU 的多个实例。随着集群规模的增加,性能也会随之出现明显的下降。这种性能下降主要是由于集群中节点之间的通信开销所造成。

为了解决此类开销问题,SageMaker 提供了两种分布式训练选项:SageMaker 模型并行性和 SageMaker 数据并行性。本指南重点介绍如何使用 SageMaker 数据并行性库训练模型。

  • 该库针对 Amazon 网络基础设施和 Amazon EC2 实例拓扑,对您的训练作业进行优化。

  • 库利用梯度更新,通过自定义 AllReduce 算法在节点之间进行通信。

要查看库的最新更新,请参阅《SageMaker Python SDK 文档》中的 SageMaker 数据并行发行说明

有关使用模型并行策略进行训练的更多信息,请参阅 SageMaker 的模型并行性库