开始进行模型评估 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

开始进行模型评估

大型语言模型 (LLM) 是一种可以分析和生成自然语言文本的机器学习模型。如果要评估LLM,请 SageMaker 提供以下三个选项供您选择:

  • 使用 Studio 为员工设置手动评估。

  • 使用 Studio 使用算法评估您的模型。

  • 使用fmeval库通过自定义的工作流程自动评估您的模型。

您可以使用算法自动评估基础模型,也可以要求人工团队评估模型的响应。

人类工作团队可以同时评估和比较两个模型,这些指标表明对一种响应的偏好,而不是另一种响应。人工评估的工作流程、指标和说明可以根据特定的用例进行定制。人类还可以提供比算法评估更精细的评估。

您还可以使用算法来评估您的LLM基准,以便在 Studio 中对模型响应进行快速评分。Studio 提供了指导性工作流程,可使用预定义的指标来评估 JumpStart 模型的响应。这些指标特定于生成式 AI 任务。此指导流程使用内置或自定义数据集来评估您的LLM.

或者,您可以使用该fmeval库使用自动评估来创建比 Studio 中提供的更加自定义的工作流程。使用 Python 代码和fmeval库,你可以评估任何基于文本的模型LLM,包括在外部创建的 JumpStart模型。

以下主题概述了基础模型评估、自动和人工基础模型评估 (FMEval) 工作流程、如何运行它们以及如何查看结果的分析报告。自动评估主题显示了如何配置和运行初始评估和自定义评估。

主题