SageMaker 的分布式数据并行库 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 的分布式数据并行库

这些区域有: SageMaker 分布式数据 parallel 库扩展 SageMaker 在具有近线性扩展效率的深度学习模型上的培训功能,可快速 time-to-train 只需最少的代码更改。

在对大量数据进行模型训练时,机器学习从业人员经常转向分布式培训以缩短培训时间。在某些情况下,在时间至关重要的情况下,业务要求是尽快完成培训,或至少在有限的时间内完成培训。然后,分布式训练将扩展为使用多个节点组成的群集,不仅仅是计算实例中的多个 GPU,而是具有多个 GPU 的多个实例。随着群集规模的增加,性能的显著下降也是如此。性能下降的主要原因是群集中节点之间的通信开销。

为了解决这种开销问题, SageMaker 提供两种分布式培训选项: SageMaker parallel 模型和 SageMaker parallel 数据。本指南重点介绍如何使用 SageMaker 数据 parallel 库。

  • 该图书馆优化你的训练工作Amazon网络基础设施和 Amazon EC2 实例拓扑。

  • 该库利用渐变更新在具有自定义功能的节点之间进行通信AllReduce算法。

要跟踪库的最新更新,请参阅SageMaker 分布式数据并行发行说中的SageMaker Python SDK 文档.

有关使用并行模型策略训练的更多信息,请参阅SageMaker的分布式模型并行.