问题排查指南 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

问题排查指南

请参阅此问题排查指南,以帮助调试在计划的笔记本作业运行时可能遇到的故障。

作业定义不会创建作业

如果您的任务定义未启动任何作业,则笔记本或培训作业可能不会显示在 Amazon SageMaker Studio 左侧导航栏的 “作业” 部分中。如果是这种情况,您可以在 Studio 左侧导航栏的 Pipelines 部分找到错误信息。每个笔记本或训练作业定义都属于一个执行管道。以下是无法启动笔记本作业的常见原因。

缺少权限

  • 分配给任务定义的角色与 Amazon 没有信任关系 EventBridge。也就是说, EventBridge 不能担任该角色。

  • 分配给作业定义的角色没有调用 SageMaker AI:StartPipelineExecution 的权限。

  • 分配给作业定义的角色没有调用 SageMaker AI:CreateTrainingJob 的权限。

EventBridge 已超出配额

如果您看到如下例所示的Put*错误,则说明您已超出 EventBridge配额。要解决这个问题,你可以清理未使用的 EventBridge 运行次数,或者 Amazon Web Services 支持 要求增加配额。

LimitExceededException) when calling the PutRule operation: The requested resource exceeds the maximum number allowed

有关 EventBridge 配额的更多信息,请参阅 Amazon EventBridge 配额

已超出管道配额限制

如果您看到如下例所示的错误,则说明已超出可运行的管道数量。要解决此问题,您可以清理账户中未使用的管道,也可以要求 Amazon Web Services 支持 增加配额。

ResourceLimitExceeded: The account-level service limit 'Maximum number of pipelines allowed per account' is XXX Pipelines, with current utilization of XXX Pipelines and a request delta of 1 Pipelines.

有关管道配额的更多信息,请参阅 Amazon A SageMaker I 终端节点和配额

已超出训练作业限制

如果您看到如下例所示的错误,则说明已超出可运行的训练作业数量。要解决这个问题,请减少账户中的培训任务数量,或者 Amazon Web Services 支持 要求增加配额。

ResourceLimitExceeded: The account-level service limit 'ml.m5.2xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact Amazon support to request an increase for this limit.

有关训练作业配额的更多信息,请参阅 Amazon A SageMaker I 终端节点和配额

在笔记本中 SparkMagic 禁用自动可视化

如果您的 notebook 使用 SparkMagic PySpark 内核,并且您将 notebook 作为 Notebook Job 运行,则可能会在输出中看到自动可视化已被禁用。打开自动可视化功能会导致内核挂起,因此笔记本作业执行器目前禁用自动可视化功能作为一种变通办法。