Amazon 中的无检查点培训 SageMaker HyperPod - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 中的无检查点培训 SageMaker HyperPod

Amazon 上的 Checkpoint 无检查点培训 SageMaker HyperPod 可以更快地从培训基础设施故障中恢复。以下文档可帮助您开始使用无检查点训练和微调支持的模型。 NeMo

Checkpointless 培训具有以下先决条件:

无检查点训练建立在 NVIDIA F SageMaker HyperPod ramewor NeMo k 用户指南之上。您可以使用预先 SageMaker HyperPod 创建的食谱进行无检查点训练。如果你熟悉 NeMo,那么使用无检查点训练食谱的过程是相似的。只需稍作改动,您就可以开始使用无检查点训练功能训练模型,这些功能使您能够从训练错误中快速恢复。

以下 HyperPod 配方已预先配置了无检查点训练优化。您可以将数据路径指定为配方的一部分,并使用相关的启动脚本来运行训练(请参阅下面的快速入门指南):

模型 方法 Size Nodes 实例 Accelerator 指南 Script 教程
GPT LOSS 完整的微调示例 120b 16 p5.48xlarge GPU H100 link link link
GPT LOSS Lora-示例 120b 2 p5.48xlarge GPU H100 link link link
Llama3 预训练示例 70b 16 p5.48xlarge GPU H100 link link link
Llama3 Lora-示例 70b 2 p5.48xlarge GPU H100 link link link

以下快速入门指南提供了使用无检查点训练食谱的教程:

入门示例

如果您想对自定义模型进行预训练或微调,请参阅。教程-Amazon SageMaker HyperPod Checkpointless 预训练或微调自定义模型

要详细了解如何整合特定的无检查点训练组件,. HyperPod 无检查点训练功能