SageMaker HyperPod 食谱 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 食谱

Amazon SageMaker HyperPod 配方是预先配置的训练堆栈,可帮助您快速开始训练和微调来自各种模型系列(例如 Llama、Mistral、Mixtral 或FMs)的公开基础模型 ()。 Amazon DeepSeekRecipes 可以自动执行 end-to-end训练循环,包括加载数据集、应用分布式训练技术以及管理检查点以更快地从故障中恢复。

SageMaker HyperPod 对于可能不具备深厚机器学习专业知识的用户来说,配方特别有益,因为它们消除了训练大型模型所涉及的大部分复杂性。

你可以在内部运行食谱, SageMaker HyperPod 也可以作为 SageMaker 训练作业运行食谱。

下表保存在 SageMaker HyperPod GitHub 存储库中,提供了 up-to-date有关支持预训练和微调的模型、它们各自的配方和启动脚本、支持的实例类型等的最多信息。

  • 有关支持预训练的模型、配方和启动脚本的最新列表,请参阅预训练表。

  • 有关支持微调的型号、配方和启动脚本的最新列表,请参阅微调表。

对于 SageMaker HyperPod 用户而言, end-to-end训练工作流程的自动化来自于训练适配器与 SageMaker HyperPod 配方的集成。训练适配器基于 NVIDIA NeMo 框架和 N euronx 分布式训练软件包构建。如果您熟悉使用训练适配器 NeMo,则使用训练适配器的过程是相同的。训练适配器在您的集群上运行配方。

该图显示了 SageMaker HyperPod 配方工作流程。顶部的 “食谱” 图标会进入 “HyperPod 食谱启动器” 盒子。此框连接到标有 “Cluster:Slurm、K8s...” 的较大部分,其中包含三个 GPU 图标以及相关的配方文件。集群部分的底部标有 “使用 HyperPod 训练适配器进行训练”。

您也可以通过定义自己的自定义配方来训练自己的模型。

要开始使用教程,请参阅教程