HyperPod 无检查点训练功能 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

HyperPod 无检查点训练功能

请参阅以下页面,了解无检查点训练中的训练功能。

Amazon SageMaker HyperPod 无检查点培训存储库

HyperPod checkpointless 训练通过框架级优化,加快了大规模分布式训练环境中集群故障的恢复。这些优化是通过基本容器映像提供的,该镜像包括增强的 NCCL 初始化改进、数据加载优化以及进程内和无检查点恢复组件。 HyperPod 无检查点培训包就是以此为基础构建的。

Checkpointless 训练通过三个同步运行的优化轨道启用:

  • 通信初始化改进(NCCL 和 Gloo)-通过分散等级 peer 和响铃信息(下面的红色方框)来消除通信瓶颈。

  • 数据加载优化-缩短重启操作期间提供第一批数据所需的时间(下方为橙色方框)。

  • 减少程序重启开销-最大限度地降低重启成本,并通过在健康的节点上恢复流程来实现无检查点补货(下面的蓝色和绿色方框)。