

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# HyperPod 无检查点训练功能
<a name="sagemaker-eks-checkpointless-features"></a>

请参阅以下页面，了解无检查点训练中的训练功能。

**Topics**
+ [Amazon SageMaker HyperPod 无检查点培训存储库](#sagemaker-eks-checkpointless-repositories)
+ [集体通信初始化改进](sagemaker-eks-checkpointless-features-communication.md)
+ [内存映射的数据加载器](sagemaker-eks-checkpointless-features-mmap.md)
+ [过程内恢复和无检查点训练](sagemaker-eks-checkpointless-in-process-recovery.md)

## Amazon SageMaker HyperPod 无检查点培训存储库
<a name="sagemaker-eks-checkpointless-repositories"></a>

[ HyperPod checkpointless 训练](https://github.com/aws/sagemaker-hyperpod-checkpointless-training#)通过框架级优化，加快了大规模分布式训练环境中集群故障的恢复。这些优化是通过基本容器映像提供的，该镜像包括增强的 NCCL 初始化改进、数据加载优化以及进程内和无检查点恢复组件。 HyperPod 无检查点培训包就是以此为基础构建的。

Checkpointless 训练通过三个同步运行的优化轨道启用：
+ **通信初始化改进（NCCL 和 Gloo）**-通过分散等级 peer 和响铃信息（下面的红色方框）来消除通信瓶颈。
+ **数据加载优化**-缩短重启操作期间提供第一批数据所需的时间（下方为橙色方框）。
+ **减少程序重启开销**-最大限度地降低重启成本，并通过在健康的节点上恢复流程来实现无检查点补货（下面的蓝色和绿色方框）。

![\[alt text not found\]](http://docs.amazonaws.cn/sagemaker/latest/dg/images/hyperpod/hyperpod-checkpointless-optimization-tracks.png)
