什么是基础模型评测? - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是基础模型评测?

FMEval 可以帮助您量化模型风险,例如不准确、有毒或有偏见的内容。评估您的 LLM 可以帮助您遵守有关负责任的生成式人工智能的国际准则,例如 ISO 42001 人工智能管理系统标准和 NIST 人工智能风险管理框架。

以下各节概述了创建模型评测、查看模型评测任务结果和分析结果的支持方法。

模型评估任务

在模型评估作业中,评估任务是您希望模型根据提示中的信息执行的任务。您可以为每个模型评测作业选择一种任务类型

模型评测作业中支持的任务类型
  • 开放式生成:对没有预先定义结构的文本做出自然的人类反应。

  • 文本摘要:生成简明扼要的摘要,同时保留较大文本中包含的意义和关键信息。

  • 问题解答:根据提示做出相关而准确的回答。

  • 分类:根据文本内容指定一个类别,如标签或得分。

  • 自定义:允许您为模型评测任务定义自定义评估维度。

每种任务类型都有与之相关的特定指标,可用于自动模型评测作业。要了解与自动模型评测作业和使用人工的模型评测作业相关的指标,请参阅 在模型评测作业中使用提示数据集和可用评估维度

更新推理参数

推理参数是影响模型输出的一种方法,无需重新训练或微调模型。

在自动模型评测任务中,您可以更改模型的温度、最高 P 值和最大新标记。

温度

改变模型响应的随机性。降低默认温度可减少随机性,提高默认温度可增加随机性。

Top P

在推理过程中,模型会生成文本,并从单词列表中选择下一个单词。更新 Top P 时,会根据百分比更改列表中的单词数。Top P 值越小,样本的确定性就越强,而 Top P 值越大,生成的文本就越多变、越有创意。

最大新代币数

改变模型可提供的响应长度。

将模型添加到模型评测任务后,您可以在 Studio 中更新推理参数。

自动模型评估作业

自动模型评测作业使用基于基准的指标来衡量对客户的有毒、有害或其他不良响应。可使用任务专用的内置数据集或指定自己的自定义提示数据集对模型回答进行得分。

要创建自动模型评测任务,可以使用 Studio 或 fmeval 库。自动模型评测作业支持使用单一模型。在 Studio 中,您可以使用 JumpStart JumpStart 模型,也可以使用之前部署到端点的模型。

或者,您也可以将 fmeval 库部署到自己的存储库中,并根据自己的使用场景定制模型评测作业。

要更好地了解结果,请使用生成的报告。报告包括可视化和示例。您还可以看到保存在创建作业时指定的 Amazon S3 存储桶中的结果。要进一步了解结果的结构,请参阅 了解自动评估作业的结果

要使用中未公开的模型 JumpStart ,必须使用该fmeval库来运行自动模型评估作业。有关 JumpStart 型号列表,请参阅可用的基础模型

提示模板

为了帮助确保您选择的 JumpStart 模型在所有提示下都表现良好, SageMaker Clarify 会自动将您的输入提示扩展为最适合您选择的模型和评估维度的格式。要查看 Clarify 提供的默认提示模板,请在评估维度的卡片中选择提示模板。例如,如果您在用户界面中选择了任务类型文本摘要,Clarify 默认会为每个相关的评估维度显示一张卡片 - 在本例中为准确性毒性语义鲁棒性。在这些卡片中,您可以配置数据集和提示模板,以便 Clarify 用来测量该评估维度。您还可以删除任何不想使用的尺寸。

默认提示模板

Clarify 提供了一系列数据集,您可以用来衡量每个评估维度。您可以选择使用其中一个或多个数据集,也可以提供自己的自定义数据集。如果您使用 Clarify 提供的数据集,也可以使用 Clarify 插入的提示模板作为默认值。我们通过分析每个数据集中的响应格式,并确定实现相同响应格式所需的查询增强功能,得出了这些默认提示。

Clarify 提供的提示模板也取决于您选择的模式。您可能会选择一种经过微调的模式,以期望在提示符的特定位置发出指令。例如,选择模型 meta-textgenerationneuron-llama-2-7b、任务类型 “文本摘要” 和 Gigaword dataset,显示以下内容的默认提示模板:

Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...

另一方面,选择 llama 聊天模式 meta-textgenerationneuron-llama2-7b-f 会显示以下默认提示模板:

[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]

自定义提示模板

在提示模板对话框中,您可以打开或关闭 Clarify 提供的自动提示模板支持。 SageMaker 如果关闭自动提示模板,Clarify 将提供默认提示(作为同一评估维度中所有数据集的基准),您可以对其进行修改。例如,如果默认提示模板包含指令用一句话概括以下内容,您可以将其修改为用少于 100 个单词概括以下内容,或者其他任何您想使用的指令。

此外,如果您修改了某个评估维度的提示,相同的提示将应用于使用该维度的所有数据集。因此,如果您选择应用提示,请将以下文本分为 17 个句子汇总到数据集中 Gigaword 为了测量毒性,数据集也使用了同样的指令 Government report 以测量毒性。如果要对不同的数据集使用不同的提示(使用相同的任务类型和评估维度),则可以使用提供的 python 软件包 FMEval。有关更多信息,请参阅 使用 fmeval 库定制工作流程

例 使用提示模版更新提示模板的示例

设想一个简单的场景:您有一个仅由两个提示组成的简单数据集,您想使用 meta-textgenerationneuron-llama-2-7b-f 对其进行评估。

{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }

因为您的提示是问答对,所以您要选择问题解答 (Q&A) 任务类型。

通过在 Studio 中选择 “提示模板”,您可以看到 Clarify 将如何 SageMaker 格式化提示以匹配meta-textgenerationneuron-llama-2-7b-f JumpStart 模型的要求。

[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]

对于此模型, SageMaker Clarify 将通过添加[INST]<<SYS>>标签来补充您的提示以包含正确的提示格式。它还会通过添加 Respond to the following question. Valid answers are "True" or "False". 来增强您的初始请求,以帮助模型做出更好的响应。

C SageMaker larify 提供的文本可能不太适合您的用例。要关闭默认提示模板,请将数据集默认提示模板切换至关闭

您可以编辑提示模板,使其符合您的使用情况。例如,您可以提示简短回答,而不是真/假答案格式,如下行所示:

[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]

现在,指定的执行维度下的所有内置或自定义提示数据集都将使用您指定的提示模板。

使用人工的模型评测作业

您还可以雇佣人工来人工评估模型响应的主观性,如是否有帮助或风格。要创建使用人工的模型评测作业,必须使用 Studio。

在使用人工操作的模型评估作业中,您最多可以比较两个 JumpStart 模型的响应。或者,您也可以指定来自外部模型的响应 Amazon。所有使用人工的模型评测作业都要求您创建一个自定义提示数据集,并将其存储在 Amazon S3 中。要进一步了解如何创建自定义提示数据,请参阅 创建使用人工的模型评估作业

在 Studio 中,您可以定义劳动力用来评估模型响应的标准。您还可以使用 Studio 中提供的模板记录评估说明。此外,您还可以在 Studio 中创建一个工作团队。工作团队是您希望参与模型评测作业的人员。