直接偏好优化 (DPO) - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

直接偏好优化 (DPO)

直接偏好优化 (DPO)

DPO 是一种先进的技术,它可以根据人类偏好而不是固定标签来微调模型。它使用配对的示例,在这些示例中,人类指出了哪种反应更适合给定的提示。该模型学会生成符合这些偏好的输出,这有助于提高响应质量,减少有害产出,更好地与人类价值观保持一致。DPO 对于在初始 SFT 之后完善模型行为特别有价值。

有关在 Amazon Nova 模型自定义中使用 DPO 的详细说明,请参阅 Amazon Nov a 用户指南中的直接偏好优化 (DPO) 部分。