本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
近端策略优化 (PPO)
近端策略优化 (PPO) 是一种先进的技术,它利用多个机器学习模型协同工作来训练和改进语言模型。PPO 流程涉及五个关键组成部分:
-
Acto r Train 模型(或策略模型)是一种受监督的微调模型,在每个训练周期中都会持续更新。这些更新是使用剪辑代理目标精心控制的,该目标限制了模型在每个步骤中可以更改的程度,通过使策略更新 “接近” 先前版本来确保训练的稳定性。
-
Acto r 生成模型会生成对提示的响应,然后由系统中的其他模型进行评估。在每个时代开始时,该模型的权重与 Actor Train 模型同步。
-
奖励模型具有固定(冻结)的权重,并为Actor生成模型创建的输出分配分数,从而提供有关响应质量的反馈。
-
评论家模型具有可训练的权重,可以评估行为者生成模型的输出,估算演员在序列中生成剩余代币可能获得的总奖励。
-
锚模型是一个冻结的监督微调模型,可帮助计算 Actor Train 模型和原始基础模型之间的 Kullback-Leibler (KL) 差异。此组件可防止 Actor Train 模型偏离基础模型的行为过于剧烈,这可能会导致不稳定或性能问题。
这些组件共同创建了一个复杂的强化学习系统,该系统可以根据定义的奖励标准优化语言模型输出,同时保持稳定的训练动态。
有关在 Amazon Nova 模型自定义中使用 PPO 的详细说明,请参阅 Amazon Nova 用户指南中的近端策略优化 (PPO) 部分。