使用 C SageMaker larify 来评估大型语言模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 C SageMaker larify 来评估大型语言模型

重要

要使用 Clari SageMaker fy 基础模型评估,您必须升级到全新的 Studio 体验。截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。基础评估功能只能在更新的体验中使用。有关如何更新 Studio 的信息,请参阅从亚马逊 SageMaker Studio 经典版迁移。有关使用 Studio Classic 应用程序的信息,请参见亚马逊 SageMaker Studio 经典版

使用 Amaz SageMaker on Clarify,您可以通过创建模型评估任务来评估大型语言模型 (LLM)。模型评估工作允许您评估和比较基于文本的基础模型的模型质量和责任指标。 JumpStart模型评估作业还支持使用已部署到端点的 JumpStart 模型。

您可以使用三种不同的方法创建模型评估作业。

  • 在 Studio 中创建自动模型评估作业 — 自动模型评估作业允许您快速评估模型执行任务的能力。您可以提供为特定用例量身定制的自定义提示数据集,也可以使用可用的内置数据集。

  • 在 Studio 中创建使用人工工作的模型评估作业 — 使用人工工作的模型评估作业允许您将人工输入引入模型评估过程。人工可能来自公司员工,也可能来自行业内的一群主题专家。

  • 使用fmeval库创建自动模型评估作业 — 使用创建作业可fmeval让您对模型评估作业进行最精细的控制。它还支持在其他服务之外使用 LLM Amazon 或使用非JumpStart 基于模型的 LLM。

模型评估作业支持 LLM 的常见用例,例如文本生成、文本分类、问答和文本摘要。

  • 开放式生成 — 人类对没有预定义结构的文本的自然反应产生。

  • 文本摘要 — 生成简洁精简的摘要,同时保留大文本中包含的含义和关键信息。

  • 问题解答 — 对提示做出相关且准确的回应。

  • 分类-根据文本的内容为其分配类别,例如标签或分数。

以下主题介绍了可用的模型评估任务以及可以使用的指标类型。还介绍了可用的内置数据集以及指定自己数据集的方法。