

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Autopilot 中微调大型语言模型的指标
<a name="autopilot-llms-finetuning-metrics"></a>

下一节描述了可用于了解经过微调的大型语言模型的指标（LLMs）。Autopilot 可使用您的数据集直接微调目标 LLM，以增强默认目标指标--交叉熵损失。

交叉熵损失是一种广泛使用的指标，用于评测预测的概率分布与训练数据中实际单词分布之间的差异。通过尽可能减少交叉熵损失，模型可以学习做出更准确、与上下文更相关的预测，尤其是在与文本生成相关的任务中。

微调 LLM 后，您可以使用一系列 ROUGE 分数来评估其生成文本的质量。此外，作为评估过程的一部分，您可以分析困惑度、交叉熵训练和验证损失。
+ 困惑度损失衡量模型预测文本序列中下一个单词的准确程度，较低的值表示对语言和上下文的理解更好。
+ Recall-Oriented Understudy for Gisting Evaluation (ROUGE) 是一套用于自然语言处理（NLP）和机器学习领域的指标，用于评估机器生成文本（如文本摘要或文本生成）的质量。它主要评测生成文本与验证数据集的基本参考（人类撰写）文本之间的相似性。ROUGE 测量方法旨在评测文本相似性的各个方面，包括系统生成文本和参考文本中 n-grams（连续的单词序列）的精确度和召回率。其目标是评测模型采集参考文本中所提供信息的效果如何。

  根据所使用的 n-grams 类型和所评估文本质量的具体方面，ROUGE 指标有多种变体。

  以下列表包含 Autopilot 微调大型语言模型后可用的 ROUGE 指标的名称和说明。  
**`ROUGE-1`, `ROUGE-2`**  
ROUGE-N 是主要的 ROUGE 指标，用于衡量系统生成文本与参考文本之间的 n-grams 重叠度。ROUGE-N 可以调整为不同的 `n` 值（此处为 `1` 或 `2`），以评估系统生成的文本对参考文本中的 n-grams 的捕捉程度。  
**`ROUGE-L`**  
ROUGE-L（ROUGE-Longest 公共子序列）计算系统生成的文本与参考文本之间的最长公共子序列。除了内容重叠之外，此变体还考虑单词顺序。  
**`ROUGE-L-Sum`**  
ROUGE-L-SUM（用于摘要的最长共同后缀）是为评估文本摘要系统而设计的。它侧重于测量机器生成的摘要与参考摘要之间的最长公共子序列。ROUGE-L-SUM 考虑了文本中的词序，这在文本摘要任务中非常重要。