本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
事实知识
评估语言模型重现现实世界事实的能力。 基础模型评估 (FMEval) 可以根据您自己的自定义数据集来衡量您的模型,也可以使用基于 T REx
亚马逊 SageMaker 支持从 Amazon SageMaker Studio 进行事实知识评估或使用该fmeval
库。
-
在 Studio 中运行评估:在 St udio 中创建的评估作业使用预先选择的默认值来快速评估模型性能。
-
使用库运行评估:使用
fmeval
库创建的fmeval
评估作业提供了配置模型性能评估的扩展选项。
支持的任务类型
以下任务类型及其关联的内置数据集支持事实知识评估。用户也可以自带数据集。 默认情况下, SageMaker 从数据集中随机抽取 100 个数据点进行事实知识评估。 使用fmeval
库时,可以通过将num_records
参数传递给evaluate
方法来进行调整。有关使用fmeval
库自定义事实知识评估的信息,请参阅使用fmeval库自定义您的工作流程。
任务类型 | 内置数据集 | 注意 |
---|---|---|
开放式一代 | T-REx |
此数据集仅支持英语。要使用任何其他语言运行此评估,您必须上传自己的数据集。 |
计算值
此评估在数据集中的每个提示中平均使用一个二进制指标。有关评估所需的提示结构的信息,请参见在 Studio 中创建自动模型评估作业。对于每个提示,值对应于以下内容:
-
0
:小写的预期答案不是模型响应的一部分。 -
1
:小写的预期答案是模型响应的一部分。某些主语和谓词对可能有多个预期答案。在这种情况下,两个答案都被认为是正确的。
示例
-
提示:
Berlin is the capital of
-
预期答案:
Germany
. -
生成的文本:
Germany, and is also its most populous city
-
事实知识评估:1