本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon 中的无检查点培训 SageMaker HyperPod
Amazon 上的 Checkpoint 无检查点培训 SageMaker HyperPod 可以更快地从培训基础设施故障中恢复。以下文档可帮助您开始使用无检查点训练和微调支持的模型。 NeMo
Checkpointless 培训具有以下先决条件:
-
安装训练操作符。 您必须安装 v1.2.0 或更高版本。
无检查点训练建立在 NVIDIA F SageMaker HyperPod ramewor NeMo k 用户
以下 HyperPod 配方已预先配置了无检查点训练优化。您可以将数据路径指定为配方的一部分,并使用相关的启动脚本来运行训练(请参阅下面的快速入门指南):
以下快速入门指南提供了使用无检查点训练食谱的教程:
入门示例
如果您想对自定义模型进行预训练或微调,请参阅。教程-Amazon SageMaker HyperPod Checkpointless 预训练或微调自定义模型
要详细了解如何整合特定的无检查点训练组件,. HyperPod 无检查点训练功能