故障排除 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

故障排除

以下部分列出了 Studio HyperPod 中的故障排除解决方案。

“任务” 选项卡

如果您获得 “自定义资源定义 (CRD)”,则在 “任务” 选项卡中未在集群上配置

  • 向您的域名执行角色授予EKSAdminViewPolicyClusterAccessRole政策。

    有关如何为执行角色添加标签的信息,请参阅为 IAM 角色添加标签

    要了解如何向 IAM 用户或群组关联策略,请参阅添加和删除 IAM 身份权限

如果 Slurm 指标的任务网格没有停止在 “任务” 选项卡中加载。

对于适用于 EKS 集群的 Studio 中的受限任务视图:

  • 如果您的执行角色无权列出 EKS 集群的命名空间。

  • 如果用户在访问 EKS 集群时遇到问题。

    1. 运行以下 Amazon CLI 命令验证 RBAC 是否已启用。

      kubectl api-versions | grep rbac

      这应该返回 rbac.authorization.k8s.io/v1。

    2. 通过运行以下命令检查ClusterRole和是否ClusterRoleBinding存在。

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. 验证用户组成员资格。确保用户已正确分配到您的身份提供商或 IAM 中的pods-events-crd-cluster-level群组。

  • 如果用户看不到任何资源。

    • 验证群组成员资格并确保ClusterRoleBinding正确应用。

  • 如果用户可以看到所有命名空间中的资源。

    • 如果需要限制命名空间,可以考虑使用RoleRoleBinding代替ClusterRoleClusterRoleBinding

  • 如果配置显示正确,但未应用权限。

    • 检查是否存在访问NetworkPoliciesPodSecurityPolicies干扰访问权限。

“指标”选项卡

如果没有 Amazon CloudWatch 指标,则会在 “指标” 选项卡中显示。

  • HyperPod 集群详细信息Metrics部分 CloudWatch 用于获取数据。要查看本节中的指标,您需要启用集群可观测性。请联系您的管理员配置指标。