HyperPod 托管分层检查点

本节介绍托管分层检查点的工作原理及其为大规模模型训练带来的好处。

Amazon SageMaker HyperPod 托管分层检查点可帮助您更高效地训练大规模生成式 AI 模型。它使用多个存储层，包括集群的 CPU 内存。此方法可以缩短恢复时间，并最大限度地减少训练进度损失；还能有效利用训练基础设施中未充分利用的内存资源。

托管分层检查点功能允许以更高的频率将检查点保存到内存中。此功能会定期将检查点保存到持久性存储中。这有助于在训练过程中同时保障性能与可靠性。

本指南介绍如何在 Amazon EKS HyperPod 集群上通过 PyTorch 框架设置、配置和使用托管分层检查点功能。

托管分层检查点的工作原理

托管分层检查点使用多层存储方法。CPU 内存用作存储模型检查点的主层。辅助层包括 Amazon S3 等持久性存储选项。

保存检查点时，系统会将其存储在跨集群节点分配的内存空间中。它会在相邻的计算节点间自动复制数据，以提高可靠性。此复制策略可防范单个或多个节点故障，并提供快速访问权限以进行恢复操作。

系统还会根据您的配置定期将检查点保存到持久性存储中。这可确保训练进度的长期持久性。

关键组件包括：

该系统通过简单的 API 调用与 PyTorch 训练循环无缝集成。这只需对现有代码进行极少的更改。

托管分层检查点为大规模模型训练提供了多种优势：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

删除集群

设置