问题排查 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

问题排查

以下部分列出了 Studio HyperPod 中的故障排除解决方案。

“任务”选项卡

如果您收到 Custom Resource Definition (CRD) is not configured on the cluster 并且在任务选项卡中,则:

  • 向域执行角色授予 EKSAdminViewPolicyClusterAccessRole 策略。

    有关如何向执行角色添加标签的信息,请参阅标记 IAM 角色

    要了解如何将策略附加到 IAM 用户或组,请参阅添加和移除 IAM 身份权限

如果 Slurm 指标的任务网格未在任务选项卡中停止加载,则:

对于 Studio 中 EKS 集群的受限任务视图:

  • 如果执行角色不具有列出 EKS 集群命名空间的权限。

  • 如果用户在访问 EKS 集群时遇到问题,则:

    1. 运行以下Amazon CLI命令验证 RBAC 是否已启用。

      kubectl api-versions | grep rbac

      这将返回 rbac.authorization.k8s.io/v1。

    2. 运行以下命令来检查 ClusterRoleClusterRoleBinding 是否存在。

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. 验证用户组成员资格。确保已将用户正确分配到身份提供者或 IAM 中的 pods-events-crd-cluster-level 组。

  • 如果用户无法查看任何资源,则:

    • 验证组成员资格并确保已正确应用 ClusterRoleBinding

  • 如果用户可以查看所有命名空间中的资源,则:

    • 在需要命名空间限制时,可以考虑使用 RoleRoleBinding 来代替 ClusterRoleClusterRoleBinding

  • 如果配置显示正确,但权限未被应用,则:

    • 检查是否存在任何 NetworkPoliciesPodSecurityPolicies 干扰访问。

“指标”选项卡

如果没有 Amazon CloudWatch 指标,则会在 “指标” 选项卡中显示。

  • HyperPod 集群详细信息Metrics部分 CloudWatch 用于获取数据。要查看此部分中的指标,您需要已启用集群和任务可观测性。请联系您的管理员以配置指标。