亚马逊上的钢筋微调 (RFT) SageMaker HyperPod

强化微调 (RFT) 是一种机器学习技术，它通过反馈信号（可衡量的分数或表示响应质量的奖励）来提高模型性能，而不是直接监督准确的正确答案。与从输入输出对中学习的传统监督微调不同，RFT 使用奖励函数来评估模型响应，并迭代优化模型以最大限度地提高这些奖励。

这种方法对于定义准确的正确输出具有挑战性的任务特别有效，但您可以可靠地衡量响应质量。RFT 使模型能够通过试验和反馈来学习复杂的行为和偏好，非常适合需要细致入微的决策、创造性的问题解决或遵守可以通过编程进行评估的特定质量标准的应用程序。

当您可以定义清晰、可衡量的成功标准，但难以为培训提供准确正确的输出时，请使用 RFT。它非常适合质量主观或多方面的任务，例如创意写作、代码优化或复杂推理，其中存在多种有效的解决方案，但有些解决方案明显优于其他解决方案。

当你具备以下条件时，RFT 效果最好：

对于需要迭代改进、个性化或遵守可编码为奖励信号的复杂业务规则的应用程序，可以考虑使用 RFT。

在可以客观测量输出质量但很难预先定义最佳响应的领域，RFT 表现出色：

当你需要平衡多个相互竞争的目标（例如准确性、效率和风格）时，RFT 的效果非常好。

Amazon Nova 2.0 在 RFT 训练期间支持推理模式。有以下模式可用：

RFT 没有中等选项。如果您的配置中没有 reasing_effort 字段，则会禁用推理。

对以下内容使用高度推理：

对以下内容使用无（省略 reasing_effort）或低推理：

更高的推理模式会增加训练时间和成本、推理延迟和成本，但也会增加复杂推理任务的模型能力。

RFT on SageMaker HyperPod 支持亚马逊 Nova Lite 2.0（amazon.nova-2-lite-v 1:0:256 k）。

RFT 流程包括四个关键阶段：

每个步骤都建立在前一个步骤的基础上，评估者是通过提供一致的反馈信号来指导整个培训过程的基础。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

Nova 2.0 上的 SFT

Nova 2.0 上的 RFT