故障排除 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

故障排除

下一页包含用于对 HyperPod EKS 集群进行故障排除的已知解决方案。

“控制面板”选项卡

EKS 加载项安装失败

要成功安装 EKS 加载项,您需要拥有 Kubernets 版本 1.30 或更高版本。要进行更新,请参阅更新 Kubernetes 版本

要成功安装 EKS 加载项,所有节点都必须处于就绪状态,并且所有容器组(pod)都必须处于正在运行状态。

要检查节点的状态,请使用list-cluster-nodesAmazon CLI命令或在 EKS 控制台中导航到 EKS 集群并查看节点的状态。解决每个节点的相关问题或联系您的管理员。如果节点状态为未知,请删除节点。当所有节点的状态均为 “就绪” 后,请重试 HyperPod从 A mazon A SageMaker I 控制台安装 EKS 附加组件。

要检查容器组(pod)的状态,请使用 Kubernetes CLI 命令 kubectl get pods -n cloudwatch-agent 或在 EKS 控制台中导航到 EKS 集群并查看具有命名空间 cloudwatch-agent 的节点的状态。解决容器组(pod)的相关问题,或联系您的管理员来解决这些问题。所有 pod 状态均为 “运行” 后,请重试 HyperPod 从 A mazon A SageMaker I 控制台安装 EKS 附加组件。

有关更多疑难解答,请参阅对 Amazon CloudWatch 可观察性 EKS 附加组件进行故障排除

“任务”选项卡

如果您看到表明未在集群上配置自定义资源定义(CRD)的错误消息,请向您的域执行角色授予 EKSAdminViewPolicyClusterAccessRole 策略。

策略

下面列出了使用 HyperPod APIs 或控制台解决与策略相关的错误的解决方案。

  • 如果策略处于 CreateFailedCreateRollbackFailed 状态,则需要删除失败的策略并创建一个新策略。

  • 如果策略处于 UpdateFailed 状态,请使用相同的策略 ARN 重试更新。

  • 如果策略处于 UpdateRollbackFailed 状态,则需要删除失败的策略,然后创建一个新策略。

  • 如果策略处于 DeleteFailedDeleteRollbackFailed 状态,请使用相同的策略 ARN 重试删除。

    • 如果您在尝试使用 HyperPod 控制台删除计算优先级或集群策略时遇到错误,请尝试cluster-scheduler-config使用 API 将其删除。要检查资源的状态,请转到计算资源分配的详细信息页面。

要查看有关失败的更多详细信息,请使用描述 API。

删除集群

下文列出了与删除集群相关的错误的已知解决方法。

  • 当由于附加的 SageMaker HyperPod 任务治理策略而导致集群删除失败时,您将需要这样做删除策略

  • 当集群删除操作因缺少以下权限而失败时,您需要更新集群管理员的最低权限集。请参阅集群管理员的 IAM 用户部分中的 Amazon EKS 选项卡。

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig