Amazon SageMaker 模型构建管道排除故障 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 模型构建管道排除故障

使用 Amazon SageMaker 模型构建管道时,您可能会因各种原因而遇到问题。本主题介绍常见错误以及如何解决这些错误的信息。

管道定义问题

您的管道定义的格式可能不正确。这可能会导致执行失败或任务不准确。创建管道时或执行时,可能会捕获这些错误。如果您的定义未验证,SageMaker 管道将返回一条错误消息,标识 JSON 文件格式错误的字符。要解决此问题,请查看使用 SageMaker Python 软件开发工具包创建的步骤的准确性。

只能在管线定义中包含步骤一次。因此,步骤不能作为条件步骤的一部分存在在同一管道中的管道。

检查管道日志

您可以使用以下命令查看步骤的状态:

execution.list_steps()

每个步骤包含以下信息:

  • 管道启动的实体的 ARN — 例如 SageMaker 作业 ARN、模型 ARN 或模型包 ARN。

  • 失败原因 — 包括步骤失败的简要说明。

  • 条件步骤评估 — 如果步骤是条件步骤,则包括条件计算为 true 还是 false。 

  • 这些区域有:CacheHit— 如果执行重复使用以前的作业执行,则会列出源执行。 

您还可以查看 SageMaker Studio 界面中的错误消息和日志。有关如何在 Studio 中查看日志的信息,请参阅查看管道执行.

缺失权限

创建管道执行的角色以及在管道执行中创建每个作业的步骤都需要正确的权限。如果没有这些权限,您可能无法按预期提交管道执行或运行 SageMaker 作业。要确保正确设置您的权限,请参阅访问控制.

Job 执行错误

由于定义 SageMaker 作业功能的脚本中存在问题,执行步骤时可能会遇到问题。每个作业都有一组 CloudWatch 日志。 若要从 SageMaker 工作室查看这些日志,请参阅查看管道执行. 有关 CloudWatch 日志与 SageMaker 一起使用的信息,请参阅使用 Amazon CloudWatch 记录亚马逊 SageMaker 活动.

属性文件错误

使用管道错误地实现属性文件时,可能会遇到问题。要确保属性文件的实现按预期工作,请参阅属性文件和JsonGet.