事实知识 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

事实知识

评估语言模型重现现实世界事实的能力。 基础模型评估 (FMEval) 可以根据您自己的自定义数据集来衡量您的模型,也可以使用基于 T REx 开源数据集的内置数据集。

亚马逊 SageMaker 支持从 Amazon SageMaker Studio 进行事实知识评估或使用该fmeval库。

  • 在 Studio 中运行评估:在 St udio 中创建的评估作业使用预先选择的默认值来快速评估模型性能。

  • 使用库运行评估:使用fmeval创建的fmeval评估作业提供了配置模型性能评估的扩展选项。

支持的任务类型

以下任务类型及其关联的内置数据集支持事实知识评估。用户也可以自带数据集。 默认情况下, SageMaker 从数据集中随机抽取 100 个数据点进行事实知识评估。 使用fmeval库时,可以通过将num_records参数传递给evaluate方法来进行调整。有关使用fmeval库自定义事实知识评估的信息,请参阅使用fmeval库自定义您的工作流程

任务类型 内置数据集 注意
开放式一代 T-REx 此数据集仅支持英语。要使用任何其他语言运行此评估,您必须上传自己的数据集。

计算值

此评估在数据集中的每个提示中平均使用一个二进制指标。有关评估所需的提示结构的信息,请参见在 Studio 中创建自动模型评估作业。对于每个提示,值对应于以下内容:

  • 0:小写的预期答案不是模型响应的一部分。

  • 1:小写的预期答案是模型响应的一部分。某些主语和谓词对可能有多个预期答案。在这种情况下,两个答案都被认为是正确的。

示例

  • 提示Berlin is the capital of 

  • 预期答案:Germany

  • 生成的文本Germany, and is also its most populous city

  • 事实知识评估:1