SageMaker HyperPod 食谱

Amazon SageMaker HyperPod 配方是预先配置的训练堆栈，可帮助您快速开始训练和微调来自各种模型系列（例如 Llama、Mistral、Mixtral 或FMs）的公开基础模型 ()。Amazon DeepSeekRecipes 可以自动执行 end-to-end训练循环，包括加载数据集、应用分布式训练技术以及管理检查点以更快地从故障中恢复。

SageMaker HyperPod 对于可能不具备深厚机器学习专业知识的用户来说，配方特别有益，因为它们消除了训练大型模型所涉及的大部分复杂性。

你可以在内部运行食谱， SageMaker HyperPod 也可以作为 SageMaker 训练作业运行食谱。

下表保存在 SageMaker HyperPod GitHub 存储库中，提供了 up-to-date有关支持预训练和微调的模型、它们各自的配方和启动脚本、支持的实例类型等的最多信息。

有关可进行预训练的模型、配方和启动脚本的最新列表，请参阅预训练表。
有关可进行微调的模型、配方和启动脚本的最新列表，请参阅微调表。

对于 SageMaker HyperPod 用户而言， end-to-end训练工作流程的自动化来自于训练适配器与 SageMaker HyperPod 配方的集成。训练适配器基于 NVIDIA NeMo 框架和 N euronx 分布式训练软件包构建。如果您熟悉使用训练适配器 NeMo，则使用训练适配器的过程是相同的。训练适配器在集群上运行配方。

该图显示了 SageMaker HyperPod 配方工作流程。顶部的 “食谱” 图标会进入 “HyperPod 食谱启动器” 盒子。此框连接到标有“集群：Slurm、K8s...”的较大部分，其中包含三个 GPU 图标以及关联的配方文件。集群部分的底部标有 “使用 HyperPod 训练适配器进行训练”。

您也可以通过定义自己的自定义配方来训练自己的模型。

要开始某个教程，请参阅教程。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

客户托管密钥加密

教程