在 Studio 中评估文本生成基础模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Studio 中评估文本生成基础模型

基础模型评估 (fmeVal) 现为 Ama SageMaker zon Clarify 的预览版,可能会发生变化。
重要

要使用 Clari SageMaker fy 基础模型评估,您必须升级到全新的 Studio 体验。截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。基础评估功能只能在更新的体验中使用。有关如何更新 Studio 的信息,请参阅从亚马逊 SageMaker Studio 经典版迁移。有关使用 Studio Classic 应用程序的信息,请参见亚马逊 SageMaker Studio 经典版

亚马逊 SageMaker JumpStart 已与 Studio 中的 Cl SageMaker arify 基础模型评估 (fmeVal) 集成。如果 JumpStart 模型具有内置评估功能,则可以在 JumpStart Studio 用户界面中模型详情页面的右上角选择评估。有关在 JumpStart Studio 用户界面中导航的更多信息,请参阅 JumpStart 在 Studio 中打开并使用

使用 Amazon SageMaker JumpStart 使用 FMeVal 评估基于文本的基础模型。您可以使用这些模型评估来比较一个模型、两个模型之间或同一模型的不同版本之间的模型质量和责任指标,以帮助您量化模型风险。FMeVal 可以评估执行以下任务的基于文本的模型:

  • 开放式生成 — 人类对没有预定义结构的文本的自然反应产生。

  • 文本摘要 — 生成简明扼要的摘要,同时保留较大文本中包含的含义和关键信息。

  • 问题解答 — 用自然语言生成问题的答案。

  • 分类-类的分配,例如根据文本positive段落的内容分配negative给文本段落。

您可以使用 FMeVal 根据特定基准自动评估模型响应。您还可以使用自己的提示数据集,根据自己的标准评估模型响应。FMeVal 提供了一个用户界面 (UI),可指导您完成评估任务的设置和配置。您也可以在自己的代码中使用 FMeVal 库。

每次评估都需要两个实例的配额:

  • 托管实例-托管和部署 LLM 的实例。

  • 评估实例 — 用于提示并对托管实例上的 LLM 进行评估的实例。

如果您的 LLM 已部署,请提供终端节点, SageMaker 并将使用您的托管实例托管和部署 LLM。

如果您正在评估尚未部署到您的账户的 JumpStart 模型,FMeVal 会在您的账户中为您创建一个临时托管实例,并且仅在评估期间保持部署状态。FMeVal 使用为所选 LLM JumpStart 推荐的默认实例作为您的托管实例。对于此推荐实例,您必须有足够的配额。

每项评估还使用评估实例为法学硕士的回复提供提示并对其进行评分。您还必须有足够的配额和内存来运行评估算法。评估实例的配额和内存要求通常小于托管实例所需的配额和内存要求。我们建议选择实ml.m5.2xlarge例。有关配额和内存的更多信息,请参阅fmeVal 疑难解答指南

自动评估可用于对以下维度的 LLM 进行评分:

  • 准确性-用于文本摘要、问答和文本分类

  • 语义稳健性 — 适用于开放式生成、文本摘要和文本分类任务

  • 事实知识——适用于开放式一代

  • 即时刻的陈规定型观念 — 适用于开放式一代

  • 毒性-用于开放式生成、文本摘要和问题解答

您也可以使用人工评估来手动评估模型响应。FMeVal 用户界面将引导您完成选择一个或多个模型、配置资源以及为员工编写说明和联系员工的工作流程。人体评估完成后,结果将显示在 fmeVal 中。

您可以通过 Studio 的 JumpStart 登录页面访问模型评估,方法是选择要评估的模型,然后选择评估。请注意,并非所有 JumpStart 型号都具有可用的评估功能。有关如何配置、配置和运行 FMeVal 的更多信息,请参阅什么是基础模型评估