本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
问题排查
以下部分列出了 Studio HyperPod 中的故障排除解决方案。
“任务”选项卡
如果您收到 Custom Resource Definition (CRD) is not configured on the cluster 并且在任务选项卡中,则:
-
向域执行角色授予
EKSAdminViewPolicy和ClusterAccessRole策略。有关如何向执行角色添加标签的信息,请参阅标记 IAM 角色。
要了解如何将策略附加到 IAM 用户或组,请参阅添加和移除 IAM 身份权限。
如果 Slurm 指标的任务网格未在任务选项卡中停止加载,则:
-
确保已在 Amazon Session Manager 首选项中启用
RunAs,并且所使用的角色已附加SSMSessionRunAs标签。-
要启用
RunAs,请导航到 Systems Manager 控制台中的首选项选项卡。
-
对于 Studio 中 EKS 集群的受限任务视图:
-
如果执行角色不具有列出 EKS 集群命名空间的权限。
-
如果用户在访问 EKS 集群时遇到问题,则:
-
运行以下Amazon CLI命令验证 RBAC 是否已启用。
kubectl api-versions | grep rbac这将返回 rbac.authorization.k8s.io/v1。
-
运行以下命令来检查
ClusterRole和ClusterRoleBinding是否存在。kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding -
验证用户组成员资格。确保已将用户正确分配到身份提供者或 IAM 中的
pods-events-crd-cluster-level组。
-
-
如果用户无法查看任何资源,则:
-
验证组成员资格并确保已正确应用
ClusterRoleBinding。
-
-
如果用户可以查看所有命名空间中的资源,则:
-
在需要命名空间限制时,可以考虑使用
Role和RoleBinding来代替ClusterRole和ClusterRoleBinding。
-
-
如果配置显示正确,但权限未被应用,则:
-
检查是否存在任何
NetworkPolicies或PodSecurityPolicies干扰访问。
-
“指标”选项卡
如果没有 Amazon CloudWatch 指标,则会在 “指标” 选项卡中显示。
-
HyperPod 集群详细信息
Metrics部分 CloudWatch 用于获取数据。要查看此部分中的指标,您需要已启用集群和任务可观测性。请联系您的管理员以配置指标。