Amazon 故障排除 SageMaker 模型构建管道 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 故障排除 SageMaker 模型构建管道

使用亚马逊时 SageMaker 建模构建管道,您可能会因各种原因而遇到问题。本主题提供有关常见错误以及如何解决这些错误的信息。

管道定义问题

管道定义的格式可能不正确。这可能会导致执行失败或者你的工作不准确。在创建管道或执行时可能会发现这些错误。如果你的定义没有验证, SageMaker Pipeline 返回一条错误消息,标识 JSON 文件格式错误的字符。要解决此问题,请查看使用 SageMaker 为了准确起见 Python SDK。

您只能在管道定义中包含一次步骤。因此,步骤不能作为条件步骤的一部分存在同一管道中的管道。

检查管道日志

您可以使用以下命令查看步骤的状态:

execution.list_steps()

每个步骤包含以下信息:

  • 管道启动的实体的 ARN,例如 SageMaker 作业 ARN、模型 ARN 或模型包 ARN。

  • 失败原因包括对步骤失败的简要说明。

  • 如果步骤是条件步骤,则包括条件是评估为 true 还是 false。 

  • 如果执行重复使用之前的任务执行,则CacheHit列出了源代码执行。 

您还可以查看错误消息并在 Amazon 中查看错误消息和日志。 SageMaker Studio 界面。有关如何在 Studio 中查看日志的信息,请参阅查看管道执行.

缺失权限

创建管道执行的角色以及在管道执行中创建每个作业的步骤都需要正确的权限。如果没有这些权限,您可能无法提交管道执行或运行 SageMaker 按预期工作。要确保正确设置权限,请参阅IAM 访问管理.

Job 执行错误

执行步骤时可能会遇到问题,因为脚本中定义了你的功能的问题 SageMaker 个作业。每个作业都有一组 CloudWatch 日志。 要从 Studio 查看这些日志,请参阅查看管道执行. 有关使用的信息 CloudWatch 使用 SageMaker 的日志,请参阅使用 Amazon CloudWatch 记录 Amazon SageMaker 事件.

属性文件错误

使用管道错误地实现属性文件时,可能会遇到问题。要确保属性文件的实施按预期工作,请参阅属性文件和JsonGet.