

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 开始模型评测
<a name="clarify-foundation-model-evaluate-get-started"></a>

大型语言模型 (LLM) 是一种可以分析和生成自然语言文本的机器学习模型。如果你想评估法学硕士， SageMaker AI 提供了以下三个选项供你选择：
+ 使用 Studio 为人工劳动力设置人工评估。
+ 使用 Studio 算法评估您的模型。
+ 使用 `fmeval` 库，通过定制的工作流程自动评估模型。

您可以使用算法自动评估基础模型，也可以请人工团队评估模型的响应。

人工工作团队可以同时评估和比较多达两个模型，使用的指标可显示对一种响应的偏好程度。人工评估的工作流程、指标和说明可根据特定的使用场景进行定制。与算法评估相比，人工还能提供更精细的评估。

您还可以使用基准算法来评估您的 LLM，以便在 Studio 中快速为您的模型响应打分。Studio 提供了指导性工作流程，可使用预定义的指标来评估 JumpStart 模型的响应。这些指标是生成式人工智能任务所特有的。该指导流程使用内置或自定义数据集来评估您的 LLM。

此外，您还可以使用 `fmeval` 库，通过自动评估创建比 Studio 更个性化的工作流程。使用Python代码和`fmeval`库，您可以评估任何基于文本的 LLM，包括在外部创建的模型。 JumpStart

以下主题概述了基础模型评估、自动和人工基础模型评估 (FMEval) 工作流程、如何运行它们以及如何查看结果的分析报告。自动评估主题说明了如何配置和运行起始评估和自定义评估。

**主题**
+ [在模型评测作业中使用提示数据集和可用评估维度](clarify-foundation-model-evaluate-overview.md)
+ [基础模型评测摘要](clarify-foundation-model-evaluate-overview.md#clarify-foundation-model-evaluate-summary)
+ [创建使用人工的模型评测](clarify-foundation-model-evaluate-human.md)
+ [自动模型评测](clarify-foundation-model-evaluate-auto.md)