Amazon SageMaker Model Building Pipelines 疑难解答 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker Model Building Pipelines 疑难解答

使用 Amazon SageMaker Model Building Pipelines 时,您可能会由于各种原因而遇到问题。本主题提供有关常见错误以及如何解决它们的信息。

管道定义问题

您的管道定义可能未正确格式化。这可能会导致您的执行失败或您的作业不准确。在创建管道或执行发生时,可能会捕获这些错误。如果您的定义未验证,SageMaker Pipelines 将返回一条错误消息,指出 JSON 文件格式错误的字符。要修复此问题,请查看使用 SageMaker Python 开发工具包创建的步骤,以确保准确性。

您只能在管道定义中包含一次步骤。因此,步骤不能作为 Condition 步骤 同一管道中的管道的一部分存在。

检查管道日志

您可以使用以下命令查看步骤的状态:

execution.list_steps()

每个步骤包含以下信息:

  • 由管道 – 启动的实体的 ARN,例如 SageMaker 任务 ARN、模型 ARN 或模型包 ARN。

  • 失败原因 – 包括步骤失败的简要说明。

  • 条件步骤评估 – 如果步骤是条件步骤,则包括将条件计算为 true 还是 false。 

  • CacheHit – 如果执行重用以前的作业执行,它将列出源执行。 

您还可以在 SageMaker Studio 界面中查看错误消息和日志。有关如何在 Studio 中查看日志的信息,请参阅查看管道执行

缺少权限

创建管道执行的角色以及创建管道执行中的每个任务的步骤需要正确的权限。如果没有这些权限,您可能无法提交管道执行或按预期方式运行 SageMaker 作业。要确保您的权限设置正确,请参阅访问控制

作业执行错误 

由于定义 SageMaker 作业功能的脚本中的问题,您在执行步骤时可能会遇到问题。每个作业都有一组 CloudWatch 日志。要从 SageMaker Studio 查看这些日志,请参阅查看管道执行。有关将 CloudWatch 日志与 SageMaker 一起使用的信息,请参阅使用 Amazon SageMaker 记录事件 Amazon CloudWatch

属性文件错误

在向管道错误实施属性文件时,您可能会遇到问题。要确保属性文件的实现按预期工作,请参阅属性文件和 JsonGet