本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
问题排查指南
请参阅此问题排查指南,以帮助调试在计划的笔记本作业运行时可能遇到的故障。
作业定义不会创建作业
如果您的任务定义未启动任何作业,则笔记本或培训作业可能不会显示在 Amazon SageMaker Studio 左侧导航栏的 “作业” 部分中。如果是这种情况,您可以在 Studio 左侧导航栏的 Pipelines 部分找到错误信息。每个笔记本或训练作业定义都属于一个执行管道。以下是无法启动笔记本作业的常见原因。
缺少权限
-
分配给任务定义的角色与 Amazon 没有信任关系 EventBridge。也就是说, EventBridge 不能担任该角色。
-
分配给作业定义的角色没有调用
SageMaker AI:StartPipelineExecution
的权限。 -
分配给作业定义的角色没有调用
SageMaker AI:CreateTrainingJob
的权限。
EventBridge 已超出配额
如果您看到如下例所示的Put*
错误,则说明您已超出 EventBridge配额。要解决这个问题,你可以清理未使用的 EventBridge 运行次数,或者 Amazon Web Services 支持 要求增加配额。
LimitExceededException) when calling the PutRule operation: The requested resource exceeds the maximum number allowed
有关 EventBridge 配额的更多信息,请参阅 Amazon EventBridge 配额。
已超出管道配额限制
如果您看到如下例所示的错误,则说明已超出可运行的管道数量。要解决此问题,您可以清理账户中未使用的管道,也可以要求 Amazon Web Services 支持 增加配额。
ResourceLimitExceeded: The account-level service limit 'Maximum number of pipelines allowed per account' is XXX Pipelines, with current utilization of XXX Pipelines and a request delta of 1 Pipelines.
有关管道配额的更多信息,请参阅 Amazon A SageMaker I 终端节点和配额。
已超出训练作业限制
如果您看到如下例所示的错误,则说明已超出可运行的训练作业数量。要解决这个问题,请减少账户中的培训任务数量,或者 Amazon Web Services 支持 要求增加配额。
ResourceLimitExceeded: The account-level service limit 'ml.m5.2xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact Amazon support to request an increase for this limit.
有关训练作业配额的更多信息,请参阅 Amazon A SageMaker I 终端节点和配额。
在笔记本中 SparkMagic 禁用自动可视化
如果您的 notebook 使用 SparkMagic PySpark 内核,并且您将 notebook 作为 Notebook Job 运行,则可能会在输出中看到自动可视化已被禁用。打开自动可视化功能会导致内核挂起,因此笔记本作业执行器目前禁用自动可视化功能作为一种变通办法。