解决 SageMaker 澄清处理作业的问题 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

解决 SageMaker 澄清处理作业的问题

如果您遇到 SageMaker 澄清处理作业的失败,请参阅以下方案以帮助确定问题。

注意

失败原因和退出消息旨在包含描述性消息和异常(如果遇到)在运行过程中遇到的情况。一个常见的原因是参数无效或缺少。如果您遇到不明确、混乱或误导性的消息,或找不到解决方案,请提交反馈。

处理作业无法完成

如果处理作业无法完成,可以尝试以下操作:

  • 直接在运行作业的笔记本中检查作业日志。作业日志位于启动运行的笔记本单元格的输出中。

  • 检查 CloudWatch 视中的作业日志。

  • 在笔记本中添加以下行以描述上次处理作业并查找失败原因并退出消息:

    • clarify_processor.jobs[-1].describe()

  • 执行以下操作AmazonCLI 命令描述处理作业并查找失败原因并退出消息:

    • aws sagemaker describe-processing-job —processing-job-name <processing-job-id>

在没有结果的情况下处理任务完成,您会收到 CloudWatch 警告消息

如果处理任务完成但未找到任何结果,并且在 CloudWatch 日志中发现警告消息,提示 “信号 15 已接收,正在清理”,这表示该作业已停止,可能是由于客户请求调用StopProcessingJobAPI 或任务用完为其完成分配的时间。在后面的情况下,检查作业配置中的最大运行时间(max_runtime_in_seconds)并根据需要增加它。

分析配置无效的错误消息

  • 如果您收到错误消息 “无法将分析配置加载为 JSON。 ”,这意味着处理作业的分析配置输入文件不包含有效的 JSON 对象。使用 JSON 连接器检查 JSON 对象的有效性。

  • 如果您收到错误消息 "分析配置模式验证错误。 ”,这意味着处理作业的分析配置输入文件包含未知字段或某些字段值的无效类型。查看文件中的配置参数,并使用配置规范文件。

对于多个或所有度量,偏置度量计算失败

如果您收到以下错误消息之一 "预测的标签列中没有标签值,正预测索引系列包含所有 False 值。” 或 “预测的标签列系列数据类型与标签列系列不同。 ”,请尝试以下操作:

  • 检查是否使用了正确的数据集。

  • 检查数据集大小是否过小;例如,它是否仅包含几行。这可能会导致模型输出具有相同的值,或者不正确地推断数据类型。

  • 检查标注或小平面是否被视为连续或分类。SageMaker 澄清使用启发式方法来确定DataType. 对于训练后偏差量度量,模型返回的数据类型可能与数据集中的数据类型不匹配,或者 SageMaker Clarify 可能无法正确转换它。

    • 在偏差报告中,您应该看到类别列的单个值或连续列的间隔。

    • 例如,如果列的值为 0.0 和 1.0 作为浮点数,则即使唯一值太少,它也会被视为连续值。

分析配置与数据/模型输入/输出不匹配

  • 检查分析配置中的基线格式是否与数据集格式相同。

  • 如果您收到错误消息 “无法将字符串转换为 float。 ”,请检查格式是否正确指定。它还可以表明模型预测具有不同于标注列的格式,或者可能表明标注或概率的配置不正确。

  • 如果您收到错误消息 “无法找到该小平面”。或 “标题必须包含标签”。或 “配置中的标题与数据集中的列数不匹配。” 或 “未找到功能名称。 ”,请检查标题是否与列匹配。

  • 如果您收到错误消息 “数据必须包含功能。 ”,请检查 JSONLINE 的内容模板,并将其与数据集示例(如果可用)进行比较。

模型返回 500 内部服务器错误或容器由于模型错误而回退到每条记录的预测

如果您收到错误消息 "回退到每条记录的预测,因为模型错误。 ”,这可能表明模型无法处理批量大小,或者由于序列化问题而不接受容器传递的输入。您应查看 SageMaker 终端节点的 CloudWatch 日志,并查找错误消息或回溯。对于模型限制情况,它可能有助于使用不同的实例类型或增加终端节点的实例数。

执行角色无效

这表示提供的角色不正确或缺少所需权限。检查用于配置处理作业的角色及其权限,并验证角色的权限和信任策略。

无法下载数据

这表示无法下载作业输入以启动作业。检查数据集和配置输入的存储桶名称和权限。

无法连接到 SageMaker

这表示作业无法到达 SageMaker 服务端点。检查处理作业的网络配置设置并验证 VPC 配置。