在 Autopilot 中微调大型语言模型的指标 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Autopilot 中微调大型语言模型的指标

使用您的数据集,Autopilot 直接微调目标语言模型 (LLM),以增强默认的目标指标,即交叉熵损失。

交叉熵损失是一种广泛使用的指标,用于评测预测的概率分布与训练数据中实际单词分布之间的差异。通过尽可能减少交叉熵损失,模型可以学习做出更准确、与上下文更相关的预测,尤其是在与文本生成相关的任务中。

微调语言模型后,您可以使用一系列 ROUGE 分数来评估其生成文本的质量。此外,作为评估过程的一部分,您可以分析困惑度、交叉熵训练和验证损失。

  • 困惑度损失衡量模型预测文本序列中下一个单词的准确程度,较低的值表示对语言和上下文的理解更好。

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) 是一组用于自然语言处理 (NLP) 和机器学习领域的指标,用于评估机器生成的文本(例如文本摘要或文本生成)的质量。它主要用于评测生成的文本与验证数据集中实际参考(由人工编写)文本之间的相似性。ROUGE 衡量标准旨在评测文本相似性的各个方面,包括系统生成的文本和参考文本中的 N-grams(连续的单词序列)查准率和查全率。其目标是评测模型采集参考文本中所提供信息的效果如何。

    ROUGE 指标有几种变体,具体取决于所使用的 N-grams 的类型和所评估的文本质量的具体方面。

    以下列表包含在 Autopilot 中对大型语言模型进行微调后,可用 ROUGE 指标的名称和描述。

    Rouge-1, Rouge-2

    ROUGE-N 是 ROUGE 的主要指标,用于测量系统生成的文本和参考文本之间的 N-grams 重叠度。可以将 ROUGE-N 调整为不同的“n”值(此处为 1 或 2),用于评估系统生成的文本从参考文本中捕获 N-grams 的效果如何。

    Rouge-L

    ROUGE-L(ROUGE-最长共同子序列)计算系统生成的文本和参考文本之间最长共同子序列. 除了内容重叠之外,此变体还考虑单词顺序。除了内容重叠之外,此变体还考虑单词顺序。

    Rouge-L-Sum

    ROUGE-L-SUM(用于摘要的最长公共子序列)设计用于评估文本摘要系统。它侧重于测量机器生成的摘要和参考摘要之间最长的共同子序列。ROUGE-L-SUM 会考虑文本中单词的顺序,这在文本摘要任务中非常重要。