设置可 SageMaker HyperPod观测性插件 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设置可 SageMaker HyperPod观测性插件

以下列表描述了设置可观测性附加组件的先决条件。

要将您的 Amazon SageMaker HyperPod (SageMaker HyperPod) 集群的指标发送到适用于 Prometheus 的亚马逊托管服务工作空间,并可选择在 Amazon Managed Grafana 中查看这些指标,请先将以下托管策略和权限附加到您的控制台角色。

  • 要使用亚马逊托管 Grafana,请在亚马逊托管 Grafana 可用Amazon Web Services 区域的地方Amazon IAM Identity Center启用(IAM 身份中心)。有关说明,请参阅《Amazon IAM Identity Center 用户指南》中的开始使用 IAM Identity Center。有关提供了 Amazon Managed Grafana 的 Amazon Web Services 区域的列表,请参阅《Amazon Managed Grafana 用户指南》中的支持的区域

  • 在 IAM Identity Center 中创建至少一个用户。

  • 确保在 Amazon EKS 集群中安装 Amazon EKS 容器组身份代理附加组件。Amazon EKS Pod Identity Agent 插件使可 SageMaker HyperPod 观察性插件能够获得与适用于 Prometheus 和日志的亚马逊托管服务进行交互的凭证。 CloudWatch 要检查 Amazon EKS 集群是否具有该附加组件,请转至 Amazon EKS 控制台,然后查看集群的附加组件选项卡。有关如何安装附加组件(如果未安装)的信息,请参阅《Amazon EKS 用户指南》中的创建附加组件(Amazon Web Services 管理控制台)

  • 在安装可 SageMaker HyperPod 观察性插件之前,请确保您的 SageMaker HyperPod 集群中至少有一个节点。在本例中可使用的最小 Amazon EC2 实例类型是4xlarge。这个最小节点大小要求可确保该节点可以容纳可 SageMaker HyperPod 观察性插件创建的所有 Pod 以及集群上任何其他已经在运行的 Pod。

  • 将以下策略和权限添加到您的角色。

    • Amazon托管策略: AmazonSageMakerHyperPodObservabilityAdminAccess

    • Amazon托管策略: AWSGrafanaWorkspacePermissionManagementV2

    • Amazon托管策略: AmazonSageMakerFullAccess

    • 为 Amazon Managed Grafana 和 Amazon Elastic Kubernetes Service 附加组件访问权限设置所需的 IAM 角色的附加权限:

      JSON
      { "Version":"2012-10-17", "Statement": [ { "Sid": "CreateRoleAccess", "Effect": "Allow", "Action": [ "iam:CreateRole", "iam:CreatePolicy", "iam:AttachRolePolicy", "iam:ListRoles" ], "Resource": [ "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityGrafanaAccess*", "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityAddonAccess*", "arn:aws:iam::*:policy/service-role/HyperPodObservabilityAddonPolicy*", "arn:aws:iam::*:policy/service-role/HyperPodObservabilityGrafanaPolicy*" ] } ] }
    • 管理 Amazon Managed Grafana 的 IAM Identity Center 用户所需的其他权限:

      JSON
      { "Version":"2012-10-17", "Statement": [ { "Sid": "SSOAccess", "Effect": "Allow", "Action": [ "sso:ListProfileAssociations", "sso-directory:SearchUsers", "sso-directory:SearchGroups", "sso:AssociateProfile", "sso:DisassociateProfile" ], "Resource": [ "*" ] } ] }

确保您满足上述先决条件后,便可安装可观测性附加组件。

快速安装可观测性附加组件
  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 转到集群的详细信息页面。

  3. 在 “控制面板” 选项卡上,找到名为 “HyperPod 监控和可观察性” 的插件,然后选择 “快速安装”。

自定义安装可观测性附加组件
  1. 转到集群的详细信息页面。

  2. 在 “控制面板” 选项卡上,找到名为 “HyperPod 监控和可观察性” 的插件,然后选择 “自定义安装”。

  3. 选择要查看的指标类别。有关这些指标类别的更多信息,请参阅 SageMaker HyperPod 集群指标

  4. 指定是否要启用 Amazon CloudWatch 日志。

  5. 指定是否希望该服务创建新的 Amazon Managed Service for Prometheus 工作区。

  6. 要能够在 Amazon Managed Grafana 控制面板中查看指标,请选中标有使用 Amazon Managed Grafana 工作区的框。可以指定您自己的工作区,也可以让服务为您创建新工作区。

    注意

    Amazon Managed Grafana 并不适用于所有可用的亚马逊 Prometheus 托管服务。Amazon Web Services 区域不过,您可以在任何 Amazon Web Services 区域设置一个 Grafana 工作区,然后将其配置为从位于其他 Amazon Web Services 区域的 Prometheus 工作区中获取指标数据。有关信息,请参阅使用 Amazon 数据来源配置添加 Amazon Managed Service for Prometheus 作为数据来源连接到 Amazon Managed Service for Prometheus 和开源 Prometheus 数据来源