本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
HyperPod 无检查点训练功能
请参阅以下页面,了解无检查点训练中的训练功能。
Amazon SageMaker HyperPod 无检查点培训存储库
HyperPod checkpointless 训练
Checkpointless 训练通过三个同步运行的优化轨道启用:
-
通信初始化改进(NCCL 和 Gloo)-通过分散等级 peer 和响铃信息(下面的红色方框)来消除通信瓶颈。
-
数据加载优化-缩短重启操作期间提供第一批数据所需的时间(下方为橙色方框)。
-
减少程序重启开销-最大限度地降低重启成本,并通过在健康的节点上恢复流程来实现无检查点补货(下面的蓝色和绿色方框)。