Amazon SageMaker 建模管线问题排查 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon SageMaker 建模管线问题排查

使用 Amazon SageMaker 建模管线时,由于各种原因,您可能会遇到一些问题。本主题提供有关常见错误以及如何解决这些错误的信息。

管道定义问题

您的管道定义可能格式不正确。这可能会导致 执行失败或作业不准确。可以在创建管道或执行管道时捕获这些错误。如果您的定义未验证,SageMaker Pipelines 将返回一条错误消息,指出 JSON 文件格式错误的字符。要修复此问题,请查看使用 SageMaker Python SDK 创建的步骤以确保准确性。

您只能在管道定义中包含一次步骤。因此,步骤不能作为条件步骤 管道的一部分存在于同一管道中。

检查管道日志

您可以使用以下命令查看步骤的状态:

execution.list_steps()

每个步骤包含以下信息:

  • 管道启动的实体的 ARN,例如 SageMaker 作业 ARN、模型 ARN 或模型包 ARN。

  • 失败原因包括对步骤失败的简要说明。

  • 如果该步骤是条件步骤,则包括条件评估为 true 还是 false。 

  • 如果执行重复使用先前的作业执行,则 CacheHit 会列出源执行。 

您还可以在 Amazon SageMaker Studio 界面中查看错误消息和日志。有关如何在 Studio 中查看日志的信息,请参阅查看管道执行

缺少权限

创建管道执行的角色以及在管道执行中创建每个作业的步骤都需要正确权限。如果没有这些权限,您可能无法按预期提交管道执行或运行 SageMaker 作业。要确保您的权限设置正确,请参阅 IAM 访问管理

作业执行错误

由于定义 SageMaker 作业功能的脚本存在问题,您在执行步骤时可能会遇到问题。每个作业都有一组 CloudWatch 日志。要从 Studio 查看这些日志,请参阅查看管道执行。有关将 CloudWatch 日志与 SageMaker 结合使用的信息,请参阅使用 Amazon CloudWatch 记录 Amazon SageMaker 事件

属性文件错误

如果在管道中不正确地实施属性文件,可能会出现问题。要确保属性文件的实施按预期运行,请参阅属性文件和 JsonGet