

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# SageMaker HyperPod 食谱
<a name="sagemaker-hyperpod-recipes"></a>

Amazon SageMaker HyperPod 配方是预先配置的训练堆栈，可帮助您快速开始训练和微调来自各种模型系列（例如 Llama、Mistral、Mixtral 或FMs）的公开基础模型 ()。 Amazon DeepSeekRecipes 可以自动执行 end-to-end训练循环，包括加载数据集、应用分布式训练技术以及管理检查点以更快地从故障中恢复。

SageMaker HyperPod 对于可能不具备深厚机器学习专业知识的用户来说，配方特别有益，因为它们消除了训练大型模型所涉及的大部分复杂性。

你可以在内部运行食谱， SageMaker HyperPod 也可以作为 SageMaker 训练作业运行食谱。

下表保存在 SageMaker HyperPod GitHub 存储库中，提供了 up-to-date有关支持预训练和微调的模型、它们各自的配方和启动脚本、支持的实例类型等的最多信息。
+ 有关可进行预训练的模型、配方和启动脚本的最新列表，请参阅[预训练表](https://github.com/aws/sagemaker-hyperpod-recipes?tab=readme-ov-file#pre-training)。
+ 有关可进行微调的模型、配方和启动脚本的最新列表，请参阅[微调表](https://github.com/aws/sagemaker-hyperpod-recipes?tab=readme-ov-file#fine-tuning)。

对于 SageMaker HyperPod 用户而言， end-to-end训练工作流程的自动化来自于训练适配器与 SageMaker HyperPod 配方的集成。训练适配器基于 [NVIDIA NeMo 框架](https://docs.nvidia.com/nemo-framework/user-guide/latest/overview.html)和 N [euronx 分布式训练](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/libraries/neuronx-distributed/index.html)软件包构建。如果您熟悉使用训练适配器 NeMo，则使用训练适配器的过程是相同的。训练适配器在集群上运行配方。

![\[该图显示了 SageMaker HyperPod 配方工作流程。顶部的 “食谱” 图标会进入 “HyperPod 食谱启动器” 盒子。此框连接到标有“集群：Slurm、K8s...”的较大部分，其中包含三个 GPU 图标以及关联的配方文件。集群部分的底部标有 “使用 HyperPod 训练适配器进行训练”。\]](http://docs.amazonaws.cn/sagemaker/latest/dg/images/sagemaker-hyperpod-recipes-overview.png)


您也可以通过定义自己的自定义配方来训练自己的模型。

要开始某个教程，请参阅[教程](sagemaker-hyperpod-recipes-tutorials.md)。

**Topics**
+ [教程](sagemaker-hyperpod-recipes-tutorials.md)
+ [默认配置](default-configurations.md)
+ [特定于集群的配置](cluster-specific-configurations.md)
+ [注意事项](cluster-specific-configurations-special-considerations.md)
+ [高级设置](cluster-specific-configurations-advanced-settings.md)
+ [附录](appendix.md)