Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅
中国的 Amazon Web Services 服务入门
(PDF)。
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
仪表板设置
使用以下信息开始设置 A SageMaker HyperPod mazon Obs CloudWatch ervability EKS 附加组件。这将为您设置一个详细的可视化仪表板,该仪表板可让您查看您的 EKS 集群硬件、团队分配和任务的指标。
如果您在设置时遇到问题,请参阅以故障排除获取已知的故障排除解决方案。
HyperPod Amazon CloudWatch 可观察性 EKS 附加组件先决条件
以下部分包括安装 Amazon EKS 可观察性附加组件之前所需的先决条件。
-
请确保您拥有 HyperPod 集群管理员的最低权限策略,请参阅集群管理员的 IAM 用户。
-
将 CloudWatchAgentServerPolicy
IAM 策略附加到您的工作节点上。为此,请输入以下命令。my-worker-node-role
替换为您的 Kubernetes 工作节点使用的 IAM 角色。
aws iam attach-role-policy \
--role-name my-worker-node-role
\
--policy-arn arn:aws:iam::aws:policy/CloudWatchAgentServerPolicy
HyperPod Amazon CloudWatch 可观察性 EKS 附加组件设置
使用以下选项设置 Amazon A SageMaker HyperPod mazon Obs CloudWatch ervability EKS 附加组件。
- Setup using the SageMaker AI console
-
设置和可视化 HyperPod 任务管理仪表板需要以下权限。本节扩展了中列出的权限集群管理员的 IAM 用户。
要管理任务监管,请使用示例策略:
JSON
- JSON
-
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"sagemaker:ListClusters",
"sagemaker:DescribeCluster",
"sagemaker:ListComputeQuotas",
"sagemaker:CreateComputeQuota",
"sagemaker:UpdateComputeQuota",
"sagemaker:DescribeComputeQuota",
"sagemaker:DeleteComputeQuota",
"sagemaker:ListClusterSchedulerConfigs",
"sagemaker:DescribeClusterSchedulerConfig",
"sagemaker:CreateClusterSchedulerConfig",
"sagemaker:UpdateClusterSchedulerConfig",
"sagemaker:DeleteClusterSchedulerConfig",
"eks:ListAddons",
"eks:CreateAddon",
"eks:DescribeAddon",
"eks:DescribeCluster",
"eks:DescribeAccessEntry",
"eks:ListAssociatedAccessPolicies",
"eks:AssociateAccessPolicy",
"eks:DisassociateAccessPolicy"
],
"Resource": "*"
}
]
}
要授予管理 Amazon O CloudWatch bservability Amazon EKS 和通过 SageMaker AI 控制台查看 HyperPod 集群控制面板的权限,请使用以下示例策略:
JSON
- JSON
-
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"eks:ListAddons",
"eks:CreateAddon",
"eks:UpdateAddon",
"eks:DescribeAddon",
"eks:DescribeAddonVersions",
"sagemaker:DescribeCluster",
"sagemaker:DescribeClusterNode",
"sagemaker:ListClusterNodes",
"sagemaker:ListClusters",
"sagemaker:ListComputeQuotas",
"sagemaker:DescribeComputeQuota",
"sagemaker:ListClusterSchedulerConfigs",
"sagemaker:DescribeClusterSchedulerConfig",
"eks:DescribeCluster",
"cloudwatch:GetMetricData",
"eks:AccessKubernetesApi"
],
"Resource": "*"
}
]
}
导航到控制台中的 “ SageMaker HyperPod 控制面板” 选项卡以安装 Amazon O CloudWatch bservability EKS。要确保控制面板中包含与任务治理相关的指标,请启用 Kueue 指标复选框。在达到免费套餐限制后,启用 Kueue CloudWatch 指标会启用指标费用。有关更多信息,请参阅 Amazon CloudWatch 定价中的指标。
- Setup using the EKS Amazon CLI
-
使用以下 EKS Amazon CLI 命令安装插件:
aws eks create-addon --cluster-name cluster-name
--addon-name amazon-cloudwatch-observability
--configuration-values "configuration json
"
以下是配置值的 JSON 示例:
{
"agent": {
"config": {
"logs": {
"metrics_collected": {
"kubernetes": {
"kueue_container_insights": true,
"enhanced_container_insights": true
},
"application_signals": { }
}
},
"traces": {
"traces_collected": {
"application_signals": { }
}
}
},
},
}
- Setup using the EKS Console UI
-
-
导航到 EKS 控制台。
-
选择您的集群。
-
选择附加组件。
-
找到 Amazon CloudWatch 可观察性附加组件并安装。为该插件安装 >= 2.4.0 版本。
-
包括以下 JSON,配置值:
{
"agent": {
"config": {
"logs": {
"metrics_collected": {
"kubernetes": {
"kueue_container_insights": true,
"enhanced_container_insights": true
},
"application_signals": { }
},
},
"traces": {
"traces_collected": {
"application_signals": { }
}
}
},
},
}
成功安装 EKS Observability 插件后,您可以在控制台的 “ HyperPod 控制面板” 选项卡下查看您的 EKS 集群指标。