本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊上的钢筋微调 (RFT) SageMaker HyperPod
强化微调 (RFT) 是一种机器学习技术,它通过反馈信号(可衡量的分数或表示响应质量的奖励)来提高模型性能,而不是直接监督准确的正确答案。与从输入输出对中学习的传统监督微调不同,RFT 使用奖励函数来评估模型响应,并迭代优化模型以最大限度地提高这些奖励。
这种方法对于定义准确的正确输出具有挑战性的任务特别有效,但您可以可靠地衡量响应质量。RFT 使模型能够通过试验和反馈来学习复杂的行为和偏好,非常适合需要细致入微的决策、创造性的问题解决或遵守可以通过编程进行评估的特定质量标准的应用程序。
何时使用 RFT
当您可以定义清晰、可衡量的成功标准,但难以为培训提供准确正确的输出时,请使用 RFT。它非常适合质量主观或多方面的任务,例如创意写作、代码优化或复杂推理,其中存在多种有效的解决方案,但有些解决方案明显优于其他解决方案。
当你具备以下条件时,RFT 效果最好:
-
一种可靠的奖励函数,可通过编程方式评估模型输出
-
需要使模型行为与特定的偏好或约束保持一致
-
传统的监督式微调不够的情况,因为收集带有标签的高质量样本昂贵或不切实际
对于需要迭代改进、个性化或遵守可编码为奖励信号的复杂业务规则的应用程序,可以考虑使用 RFT。
RFT 最适合做什么
在可以客观测量输出质量但很难预先定义最佳响应的领域,RFT 表现出色:
-
数学问题解决:使用多个求解路径可验证的正确性
-
代码生成和优化:可测试的执行结果和性能指标
-
科学推理任务:逻辑一致性和事实准确性
-
结构化数据分析:可编程验证的输出
-
多步推理:需要 step-by-step逻辑进展的任务
-
工具使用情况和 API 调用:成功可通过执行结果来衡量
-
复杂的工作流程:遵守特定的限制和业务规则
当你需要平衡多个相互竞争的目标(例如准确性、效率和风格)时,RFT 的效果非常好。
何时使用推理模式进行 RFT 训练
Amazon Nova 2.0 在 RFT 训练期间支持推理模式。有以下模式可用:
-
无:没有推理(省略 reasing_efforts 字段)
-
lo@@ w:推理开销最小
-
high:最大推理能力(指定 reasing_effort 时为默认值)
注意
RFT 没有中等选项。如果您的配置中没有 reasing_effort 字段,则会禁用推理。
对以下内容使用高度推理:
-
复杂的分析任务
-
解决数学问题
-
多步逻辑推导
-
step-by-step思考可以增加价值的任务
对以下内容使用无(省略 reasing_effort)或低推理:
-
简单的事实查询
-
直接分类
-
速度和成本优化
-
直截了当的问题回答
重要
更高的推理模式会增加训练时间和成本、推理延迟和成本,但也会增加复杂推理任务的模型能力。
支持的模型
RFT on SageMaker HyperPod 支持亚马逊 Nova Lite 2.0(amazon.nova-2-lite-v 1:0:256 k)。
主要步骤
RFT 流程包括四个关键阶段:
-
实现评估器:创建奖励函数,根据您的质量标准以编程方式对模型响应进行评分。
-
上传提示:以指定的对话格式准备和上传训练数据,其中包含参考数据以供评估。
-
开始作业:使用您配置的参数启动钢筋微调过程。
-
监控:通过指标仪表板跟踪训练进度,确保模型有效学习。
每个步骤都建立在前一个步骤的基础上,评估者是通过提供一致的反馈信号来指导整个培训过程的基础。