fmeVal 故障排除指南 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

fmeVal 故障排除指南

重要

要使用 Clarif SageMaker y 基础模型评估 (fmeVal),您必须升级到全新的 Studio 体验。

截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。FMeVal 在 Amazon SageMaker Studio Classic 中不可用。

有关如何升级到全新 Studio 体验的信息,请参阅从亚马逊 SageMaker Studio 经典版迁移。有关使用 Studio Classic 应用程序的信息,请参见亚马逊 SageMaker Studio 经典版

如果您在创建模型评估任务时遇到错误,请使用以下列表对评估进行故障排除。如果您需要进一步的帮助,请联系我们Amazon Web Services SupportAmazon Amazon 开发者论坛 SageMaker

从 Amazon S3 存储桶上传数据时出错

创建基础模型评估时,必须为要存储模型输入和输出的 S3 存储桶设置正确的权限。如果跨源资源共享 (CORS) 权限设置不正确,则 SageMaker会生成以下错误:

错误:无法将对象放入 s3:将对象上传到 s3Error 时出错:尝试获取资源 NetworkError 时无法将对象放入 S3: 中。

要设置正确的存储桶权限,请按照中设置环境下的说明进行操作在 Studio 中创建自动模型评估作业

处理任务未能完成

处理任务未能完成的最常见原因包括以下几点:

请参阅以下章节,以帮助您缓解每个问题。

配额不足

当您对未部署 SageMaker JumpStart的模型运行基础模型评估时, SageMaker Clarify 会将您的大型语言模型 (LLM) 部署到您账户中的 SageMaker 终端节点。如果您的账户没有足够的配额来运行所选 SageMaker JumpStart 模型,则任务将失败,并显示为ClientError。要增加配额,请按照以下步骤操作:

申请提高 Amazon 服务配额
  1. 从屏幕上的错误消息中检索实例名称、当前配额和必要的配额。例如,在以下错误中:

    • 实例名称是ml.g5.12xlarge

    • 以下数字中的当前配额current utilization0 instances

    • 以下数字中需要的额外配额request delta1 instances

    错误示例如下:

    ClientError: An error occurred (ResourceLimitExceeded) when calling the CreateEndpoint operation: The account-level service limit 'ml.g5.12xlarge for endpoint usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please use AWS Service Quotas to request an increase for this quota. If AWS Service Quotas is not available, contact AWS support to request an increase for this quota

  2. 登录 Amazon Web Services Management Console 并打开 S ervice Quotas 控制台

  3. 在导航窗格的 “管理配额” 下,输入Amazon SageMaker

  4. 选择查看配额

  5. 服务配额下的搜索栏中,输入步骤 1 中的实例名称。例如,使用步骤 1 中错误消息中包含的信息进行输入ml.g5.12xlarge

  6. 选择显示在您的实例名称旁边并以结尾的终端节点使用配额名称。例如,使用步骤 1 中错误消息中包含的信息,为端点使用选择 ml.g5.12xlarge

  7. 选择在账户层面申请加薪

  8. 在 “增加配额值” 下,根据步骤 1 的错误消息中提供的信息输入所需的必要配额。输入current utilization和的request delta。在前面的示例错误中0 Instancescurrent utilization是,request delta1 Instances。在此示例中,请求配额为1以提供所需的配额。

  9. 选择请求

  10. 从导航窗格中选择 “配额申请历史记录”。

  11. 状态从 “待定” 更改为已批准” 时,请重新运行您的作业。您可能需要刷新浏览器才能看到更改。

有关申请增加配额的更多信息,请参阅申请增加配额

内存不足

如果您在内存不足以运行评估算法的 Amazon EC2 实例上启动基础模型评估,则任务将失败,并显示以下错误:

The actor is dead because its worker process has died. Worker exit type: SYSTEM_ERROR Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file. There are some potential root causes. (1) The process is killed by SIGKILL by OOM killer due to high memory usage. (2) ray stop --force is called. (3) The worker is crashed unexpectedly due to SIGSEGV or other unexpected errors. The actor never ran - it was cancelled before it started running.

要增加评估任务的可用内存,请将您的实例更改为具有更多内存的实例。如果您使用的是用户界面,则可以在步骤 2处理器配置下选择实例类型。如果您在 SageMaker控制台中运行作业,请使用内存容量增加的实例启动新空间。

有关 Amazon EC2 实例的列表,请参阅实例类型

有关内存容量更大的实例的更多信息,请参阅内存优化型实例

未通过 ping 检查

在某些情况下,您的基础模型评估任务会失败,因为它在部署终端节点时 SageMaker 未通过 ping 检查。如果未通过 ping 测试,则会出现以下错误:

ClientError: Error hosting endpoint your_endpoint_name: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint..., Job exited for model: your_model_name of model_type: your_model_type

如果您的作业生成此错误,请等待几分钟,然后再次运行您的作业。如果错误仍然存在,请联系 Supp Amazon ortAmazon Amazon 开发者论坛 SageMaker

在 SageMaker 控制台中找不到基础模型评估

要使用 Clari SageMaker fy 基础模型评估,您必须升级到全新的 Studio 体验。截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。基础评估功能只能在更新的体验中使用。有关如何更新 Studio 的信息,请参阅从亚马逊 SageMaker Studio 经典版迁移。有关使用 Studio Classic 应用程序的信息,请参见亚马逊 SageMaker Studio 经典版

您的模型不支持即时刻板印象

只有部分 SageMaker JumpStart 型号支持即时刻板印象。如果您选择了不支持的 SageMaker JumpStart 型号,则会出现以下错误:

{"evaluationMetrics":"This model does not support Prompt stereotyping evaluation. Please remove that evaluation metric or select another model that supports it."}

如果您收到此错误,则无法在基础评估中使用所选模型。 SageMaker Clarify 目前正在努力更新所有 SageMaker JumpStart 模型,以便快速完成陈规定型任务,以便它们可用于基础模型评估。

数据集验证错误(人为错误)

使用人工操作的模型评估作业中的自定义提示数据集必须使用.jsonl扩展名使用 JSON 行格式进行格式化。

启动作业时,提示数据集中的每个 JSON 对象都经过相互依存的验证。如果其中一个 JSON 对象无效,则会出现以下错误。

Customer Error: Your input dataset could not be validated. Your dataset can have up to 1000 prompts. The dataset must be a valid jsonl file, and each prompt valid json object.To learn more about troubleshooting dataset validations errors, see Troubleshooting guide. Job executed for models: meta-textgeneration-llama-2-7b-f, pytorch-textgeneration1-alexa20b.

要使自定义提示数据集通过所有验证,JSON 行文件中的所有 JSON 对象都必须符合以下条件

  • 提示数据集文件中的每一行都必须是有效的 JSON 对象。

  • 诸如引号 (") 之类的特殊字符必须正确转义。例如,如果您的提示如下所示,"Claire said to the crowd, "Bananas are the best!""则需要使用\、对引号进行转义"Claire said to the crowd, \"Bananas are the best!\""

  • 有效的 JSON 对象必须至少包含prompt键/值对。

  • 一个提示数据集文件在单个文件中不能包含超过 1,000 个 JSON 对象。

  • 如果您在任何 JSON 对象中指定responses密钥,则该密钥必须存在于所有 JSON 对象中。

  • responses密钥中的最大对象数为 1。如果您要比较多个模型的响应,则每个模型都需要一个单独的 BYOI 数据集。

  • 如果您在任何 JSON 对象中指定密responses钥,则该密钥还必须包含所有responses对象中的modelIdentifiertext密钥。