SageMaker 的分布式数据并行库 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 的分布式数据并行库

重要

要对现有笔记本实例或 Studio 应用程序使用新功能,请重新启动笔记本实例或 Studio 应用程序以获取最新更新。

SageMaker 的分布式数据并行库以近乎线性的扩展效率扩展了 SageMaker 在深度学习模型上的训练功能,从而以最少的代码更改实现快速训练。

  • 该库针对 AWS 网络基础设施和 Amazon EC2 实例拓扑优化您的训练作业。

  • 该库利用梯度更新,以使用自定义 AllReduce 算法在节点之间进行通信。

在大量数据上训练模型时,机器学习从业人员通常会转向分布式训练以减少训练时间。在某些情况下,在时间很重要的情况下,业务需求是尽快完成训练或在受约束的时间段内完成训练。然后,分布式训练扩展到使用多个节点的集群 — 而不仅仅是计算实例中的多个 GPUs,而是使用具有多个 GPUs 的多个实例。 随着集群大小的增加,性能也会大幅下降。性能下降主要由集群中节点之间的通信开销导致。 

SageMaker 的分布式库为分布式训练提供了两个选项:模型并行和数据并行。本指南主要介绍如何使用数据并行策略训练模型。有关使用模型并行策略进行训练的更多信息,请参阅SageMaker的分布式模型并行