本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
直接偏好优化 (DPO)
直接偏好优化 (DPO)
DPO 是一种先进的技术,它可以根据人类偏好而不是固定标签来微调模型。它使用配对的示例,在这些示例中,人类指出了哪种反应更适合给定的提示。该模型学会生成符合这些偏好的输出,这有助于提高响应质量,减少有害产出,更好地与人类价值观保持一致。DPO 对于在初始 SFT 之后完善模型行为特别有价值。
有关在 Amazon Nova 模型自定义中使用 DPO 的详细说明,请参阅 Amazon Nov a 用户指南中的直接偏好优化 (DPO) 部分。