SageMaker 的分布式数据并行库 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 的分布式数据并行库

重要

要将新功能与现有笔记本实例或 Studio 应用程序一起使用,请重新启动笔记本实例或 Studio 应用程序以获取最新更新。

SageMaker 的分布式数据并行库以近乎线性的扩展效率扩展了 SageMaker 深度学习模型的培训能力,从而在最少代码更改的情况下实现了快速的训练时间。

  • 该库优化了您的训练工作Amazon网络基础设施和 Amazon EC2 实例拓扑结构。

  • 该库利用渐变更新在节点之间通信与自定义AllReduce算法。

在对大量数据进行模型培训时,机器学习从业人员通常会转向分布式培训,以减少培训时间。在某些情况下,在时间至关重要的情况下,业务要求是尽快完成培训,或至少在有限的时间段内完成培训。然后,将分布式培训扩展为使用多个节点的集群 — 不仅仅是计算实例中的多个 GPU,还包含多个 GPU 的多个实例。随着集群大小的增加,性能也会显著下降。性能下降的主要原因是群集中节点之间的通信开销。 

SageMaker 的分布式库为分布式训练提供了两种选项:模型并行和数据并行。本指南重点介绍如何使用数据并行策略训练模型。有关使用模型并行策略进行培训的详细信息,请参阅SageMaker 的分布式模型并行.