评估 Studio 中的文本生成基础模型

注意

基础模型评估 (FMEval) 是 Amazon Clarif SageMaker y 的预览版，可能会发生变化。

重要

要使用 Clari SageMaker fy 基础模型评估，您必须升级到全新的 Studio 体验。截至 2023 年 11 月 30 日，之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。基础评估功能只能在更新的体验中使用。有关如何更新 Studio 的信息，请参阅从亚马逊 SageMaker Studio 经典版迁移。有关使用 Studio Classic 应用程序的信息，请参阅亚马逊 SageMaker Studio 经典版。

亚马逊 SageMaker JumpStart 已与 Studio 中的 C SageMaker larify 基础模型评估 (FMEval) 集成。如果 JumpStart 模型具有内置评估功能，则可以在 JumpStart Studio 用户界面中模型详情页面的右上角选择评估。有关在 JumpStart Studio 用户界面中导航的更多信息，请参阅 JumpStart 在 Studio 中打开并使用

使用 Amazon SageMaker JumpStart 来评估基于文本的基础模型。 FMEval您可以使用这些模型评估来比较一个模型、两个模型之间或同一模型的不同版本之间的模型质量和责任指标，以帮助您量化模型风险。 FMEval 可以评估执行以下任务的基于文本的模型：

开放式生成：对没有预先定义结构的文本做出自然的人类反应。
文本摘要：生成简明扼要的摘要，同时保留长文本中的含义和关键信息。
问题解答：用自然语言回答问题。
分类：根据文本内容，将文本段落分为 negative 类和 positive 类。

您可以使用 FMEval 根据特定基准自动评估模型响应。您还可以使用自己的提示数据集，根据自己的标准评估模型响应。 FMEval 提供了一个用户界面 (UI)，可指导您完成评估任务的设置和配置。您也可以在自己的代码中使用该 FMEval 库。

每次评估都需要两个实例的配额：

托管实例：托管和部署 LLM 的实例。
评估实例：用于在主机实例上提示和执行 LLM 评估的实例。

如果您的 LLM 已部署，请提供终端节点， SageMaker AI 将使用您的托管实例来托管和部署 LLM。

如果您正在评估尚未部署到您的账户的 JumpStart 模型，请在您的账户中为您 FMEval 创建一个临时托管实例，并且仅在评估期间保持部署状态。 FMEval 使用为所选 LLM JumpStart 推荐的默认实例作为您的托管实例。您必须拥有足够的配额才能使用此推荐实例。

每次评估都会使用评估实例来提示 LLM 的响应并为其打分。您还必须拥有足够的配额和内存来运行评估算法。评估实例的配额和内存需求通常小于托管实例的需求。我们建议选择 ml.m5.2xlarge 实例。有关配额和内存的更多信息，请参阅解决在 Amazon A SageMaker I 中创建模型评估任务时出现的错误。

自动评估可用于对以下维度 LLMs 进行评分：

准确性：适用于文本摘要、问答和文本分类
语义稳健性：适用于开放式生成、文本摘要和文本分类任务
事实知识：适用于开放式一代
提示定式：适用于开放式一代
毒性：适用于开放式生成、文本摘要和问答

您还可以使用人工评估来手动评估模型响应。 FMEval 用户界面将引导您完成选择一个或多个模型、配置资源、为员工编写说明和联系员工的工作流程。人体评估完成后，结果将显示在中 FMEval。

您可以通过 Studio 的 JumpStart 登录页面访问模型评估，方法是选择要评估的模型，然后选择评估。请注意，并非所有 JumpStart 型号都具有可用的评估功能。有关如何配置、配置和运行的更多信息 FMEval，请参阅什么是基础模型评估？

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

检索增强生成

示例笔记本