本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊上的 Amazon Nova 定制 SageMaker HyperPod
你可以使用亚马逊 Nova 食谱自定义 Amazon Nova 机型,包括增强版 Nova 2.0 型号,并在亚马逊上进行训练 SageMaker HyperPod。配方是一个 YAML 配置文件,它向 SageMaker AI 提供有关如何运行模型自定义作业的详细信息。亚马逊 SageMaker HyperPod 支持两种类型的服务:Forge 和非 Forge。
亚马逊通过优化的 GPU 实例和 Amazon FSx for Lustre 存储 SageMaker HyperPod 提供高性能计算,通过与工具集成实现强大的监控 TensorBoard,用于迭代改进的灵活检查点管理,无缝部署到 Amazon Bedrock 进行推理,以及高效的可扩展多节点分布式训练,所有这些共同为组织提供安全、高性能和灵活的环境,以根据其特定业务需求量身定制 Nova 模型。
亚马逊上的 Amazon Nova 自定义将模型工件(包括模型检查点) SageMaker HyperPod 存储在服务托管的 Amazon S3 存储桶中。服务托管存储桶中的项目使用托管密钥进行 SageMaker加Amazon KMS密。服务托管的 Amazon S3 存储桶目前不支持使用客户托管的 KMS 密钥进行数据加密。您可以利用此检查点位置进行评估作业或 Amazon Bedrock 推理。
标准定价适用于计算实例、Amazon S3 存储和 FSx Lustre。有关定价详情,请参阅SageMaker HyperPod定价
亚马逊 Nova 1 机型的计算要求
下表汇总了 Nova 1.0 模型的计算要求 SageMaker HyperPod 和 SageMaker AI 训练作业训练。
模型 |
序列长度 |
Nodes |
实例 |
Accelerator |
|---|---|---|---|---|
Amazon Nova Micro |
8192 |
8 |
ml.p5.48xlarge |
GPU H100 |
Amazon Nova Lite |
8192 |
16 |
ml.p5.48xlarge |
GPU H100 |
Amazon Nova Pro |
8192 |
12 |
ml.p5.48xlarge |
GPU H100 |
模型 |
序列长度 |
节点数量 |
实例 |
Accelerator |
|---|---|---|---|---|
直接偏好优化(全秩) |
32,768 |
2、4 或 6 |
ml.p5.48xlarge |
GPU H100 |
直接偏好优化(LoRA) |
32,768 |
2、4 或 6 |
ml.p5.48xlarge |
GPU H100 |
模型 |
方法 |
序列长度 |
节点数量 |
实例 |
Accelerator |
|---|---|---|---|---|---|
| 亚马逊 Nova 1 Micro |
监督式微调(LoRA) |
65,536 |
2 |
ml.p5.48xlarge |
GPU H100 |
| 亚马逊 Nova 1 Micro |
监督式微调(全秩) |
65,536 |
2 |
ml.p5.48xlarge |
GPU H100 |
| 亚马逊 Nova 1 Lite |
监督式微调(LoRA) |
32,768 |
4 |
ml.p5.48xlarge |
GPU H100 |
| 亚马逊 Nova 1 Lite |
监督式微调(全秩) |
65,536 |
4 |
ml.p5.48xlarge |
GPU H100 |
| 亚马逊 Nova 1 Pro |
监督式微调(LoRA) |
65,536 |
6 |
ml.p5.48xlarge |
GPU H100 |
| 亚马逊 Nova 1 Pro |
监督式微调(全秩) |
65,536 |
6 |
ml.p5.48xlarge |
GPU H100 |
模型 |
Nodes |
实例 |
|---|---|---|
针对后训练的模型蒸馏 |
1 |
ml.r5.24xlarge |
模型 |
序列长度 |
Nodes |
实例 |
Accelerator |
|---|---|---|---|---|
通用文本基准测试配方 |
8192 |
1 |
ml.p5.48xlarge |
GPU H100 |
自带数据集(gen_qa)基准测试配方 |
8192 |
1 |
ml.p5.48xlarge |
GPU H100 |
Amazon Nova LLM-as-a-Judge 配方 |
8192 |
1 |
ml.p5.48xlarge |
GPU H100 |
标准文本基准测试 |
8192 |
1 |
ml.p5.48xlarge |
GPU H100 |
自定义数据集评估 |
8192 |
1 |
ml.p5.48xlarge |
GPU H100 |
多模态基准测试 |
8192 |
1 |
ml.p5.48xlarge |
GPU H100 |
模型 |
评估模型实例计数 |
奖励模型实例计数 |
锚点模型实例计数 |
角色训练 |
角色生成 |
实例数 |
每次运行总时长 |
P5 小时数 |
实例类型 |
|---|---|---|---|---|---|---|---|---|---|
Amazon Nova Micro |
1 |
1 |
1 |
2 |
2 |
7 |
8 |
56 |
ml.p5.48xlarge |
Amazon Nova Lite |
1 |
1 |
1 |
2 |
2 |
7 |
16 |
112 |
ml.p5.48xlarge |
Amazon Nova Pro |
1 |
1 |
1 |
6 |
2 |
11 |
26 |
260 |
ml.p5.48xlarge |
亚马逊 Nova 2 机型的计算要求
下表汇总了 Nova 2 模型的计算要求 SageMaker HyperPod 和 SageMaker AI 训练作业训练。
训练技巧 |
最低实例数 |
实例类型 |
GPU 数量 |
注意 |
|---|---|---|---|---|
SFT (LoRa) |
4 |
p5.48xLarge |
16 |
参数高效的微调 |
SFT(满级) |
4 |
p5.48xLarge |
32 |
完整模型微调 |
RFT 谈 SageMaker 人工智能培训工作 (LoRa) |
2 |
p5.48xLarge |
16 |
您的Amazon环境中的自定义奖励函数 |
RFT 谈 SageMaker 人工智能训练工作(满级) |
4 |
p5.48xLarge |
32 |
32K 上下文长度 |
RFT 开启 SageMaker HyperPod |
8 |
p5.48xLarge |
64 |
默认 8192 上下文长度 |
CPT |
2 |
p5.48xLarge |
16 |
每天处理大约 12.5 亿个代币 |