

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 设置可 SageMaker HyperPod 观测性插件
<a name="hyperpod-observability-addon-setup"></a>

以下列表描述了设置可观测性附加组件的先决条件。

要将您的 Amazon SageMaker HyperPod (SageMaker HyperPod) 集群的指标发送到适用于 Prometheus 的亚马逊托管服务工作空间，并可选择在 Amazon Managed Grafana 中查看这些指标，请先将以下托管策略和权限附加到您的控制台角色。
+ 要使用亚马逊托管 Grafana，请在亚马逊托管 Grafana 可用 Amazon Web Services 区域 的地方 Amazon IAM Identity Center 启用（IAM 身份中心）。有关说明，请参阅《Amazon IAM Identity Center 用户指南》**中的[开始使用 IAM Identity Center](https://docs.amazonaws.cn/singlesignon/latest/userguide/getting-started.html)。有关提供了 Amazon Managed Grafana 的 Amazon Web Services 区域 的列表，请参阅《Amazon Managed Grafana 用户指南》**中的[支持的区域](https://docs.amazonaws.cn/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html#AMG-supported-Regions)。
+ 在 IAM Identity Center 中创建至少一个用户。
+ 确保在 Amazon EKS 集群中安装 [Amazon EKS 容器组身份代理](https://docs.amazonaws.cn/eks/latest/userguide/workloads-add-ons-available-eks.html#add-ons-pod-id)附加组件。Amazon EKS Pod Identity Agent 插件使可 SageMaker HyperPod 观察性插件能够获得与适用于 Prometheus 和日志的亚马逊托管服务进行交互的凭证。 CloudWatch 要检查 Amazon EKS 集群是否具有该附加组件，请转至 Amazon EKS 控制台，然后查看集群的**附加组件**选项卡。有关如何安装附加组件（如果未安装）的信息，请参阅《Amazon EKS 用户指南》**中的[创建附加组件（Amazon Web Services 管理控制台）](https://docs.amazonaws.cn/eks/latest/userguide/creating-an-add-on.html#_create_add_on_console)。
**注意**  
标准实例组需要 Amazon EKS Pod 身份代理。对于受限实例组 (RIG)，由于网络隔离限制，Pod 身份代理不可用。集群的实例组执行 IAM 角色用于与适用于 Prometheus 的亚马逊托管服务进行交互。有关如何配置该角色的信息，请参阅[受限实例组的其他先决条件](#hyperpod-observability-addon-rig-prerequisites)。
+ 在安装可 SageMaker HyperPod 观察性插件之前，请确保您的 SageMaker HyperPod 集群中至少有一个节点。适用于此情况的最小 Amazon EC2 实例类型是 `4xlarge`。这个最小节点大小要求可确保该节点可以容纳可 SageMaker HyperPod 观察性插件创建的所有 Pod 以及集群上任何其他已经在运行的 Pod。
+ 将以下策略和权限添加到您的角色。
  + [Amazon 托管策略： AmazonSageMakerHyperPodObservabilityAdminAccess](security-iam-awsmanpol-AmazonSageMakerHyperPodObservabilityAdminAccess.md)
  + [Amazon 托管策略： AWSGrafanaWorkspacePermissionManagementV2](https://docs.amazonaws.cn/grafana/latest/userguide/security-iam-awsmanpol.html#security-iam-awsmanpol-AWSGrafanaWorkspacePermissionManagementV2)
  + [Amazon 托管策略： AmazonSageMakerFullAccess](https://docs.amazonaws.cn/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)
  + 为 Amazon Managed Grafana 和 Amazon Elastic Kubernetes Service 附加组件访问权限设置所需的 IAM 角色的附加权限：

------
#### [ JSON ]

****  

    ```
    {
        "Version":"2012-10-17",		 	 	 
        "Statement": [
            {
                "Sid": "CreateRoleAccess",
                "Effect": "Allow",
                "Action": [
                    "iam:CreateRole",
                    "iam:CreatePolicy",
                    "iam:AttachRolePolicy",
                    "iam:ListRoles"
                ],
                "Resource": [
                    "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityGrafanaAccess*",
                    "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityAddonAccess*",
                    "arn:aws:iam::*:policy/service-role/HyperPodObservabilityAddonPolicy*",
                    "arn:aws:iam::*:policy/service-role/HyperPodObservabilityGrafanaPolicy*"
                ]
            }
        ]
    }
    ```

------
  + 管理 Amazon Managed Grafana 的 IAM Identity Center 用户所需的其他权限：

------
#### [ JSON ]

****  

    ```
    {
        "Version":"2012-10-17",		 	 	 
        "Statement": [
            {
                "Sid": "SSOAccess",
                "Effect": "Allow",
                "Action": [
                    "sso:ListProfileAssociations",
                    "sso-directory:SearchUsers",
                    "sso-directory:SearchGroups",
                    "sso:AssociateProfile",
                    "sso:DisassociateProfile"
                ],
                "Resource": [
                    "*"
                ]
            }
        ]
    }
    ```

------

## 受限实例组的其他先决条件
<a name="hyperpod-observability-addon-rig-prerequisites"></a>

如果您的集群包含受限实例组，则实例组执行角色必须有权向适用于 Prometheus 的亚马逊托管服务写入指标。当您使用 **Quick setup** 创建启用了可观察性的集群时，这些权限会自动添加到执行角色中。

如果您使用**自定义设置**或向现有 RIG 集群添加可观察性，请确保每个受限实例组的执行角色具有以下权限：

```
{
    "Version": "2012-10-17", 		 	 	 
    "Statement": [
        {
            "Sid": "PrometheusAccess",
            "Effect": "Allow",
            "Action": "aps:RemoteWrite",
            "Resource": "arn:aws:aps:us-east-1:account_id:workspace/workspace-ID"
        }
    ]
}
```

将*us-east-1**account\$1id*、和*workspace-ID*替换为您的 Amazon Web Services 区域账户 ID 和 Prometheus 工作空间 ID 的亚马逊托管服务。

确保您满足上述先决条件后，便可安装可观测性附加组件。

**快速安装可观测性附加组件**

1. 打开 Amazon A SageMaker I 控制台，网址为[https://console.aws.amazon.com/sagemaker/](https://console.amazonaws.cn/sagemaker/)。

1. 转到集群的详细信息页面。

1. 在 “**控制面板**” 选项卡上，找到名为 “**HyperPod 监控和可观察性**” 的插件，然后选择 “**快速安装**”。

**自定义安装可观测性附加组件**

1. 转到集群的详细信息页面。

1. 在 “**控制面板**” 选项卡上，找到名为 “**HyperPod 监控和可观察性**” 的插件，然后选择 “**自定义安装**”。

1. 选择要查看的指标类别。有关这些指标类别的更多信息，请参阅 [SageMaker HyperPod 集群指标](hyperpod-observability-cluster-metrics.md)。

1. 指定是否要启用 Amazon CloudWatch 日志。

1. 指定是否希望该服务创建新的 Amazon Managed Service for Prometheus 工作区。

1. 要能够在 Amazon Managed Grafana 控制面板中查看指标，请选中标有**使用 Amazon Managed Grafana 工作区**的框。可以指定您自己的工作区，也可以让服务为您创建新工作区。
**注意**  
Amazon Managed Grafana 并不适用于所有可用的亚马逊 Prometheus 托管服务。 Amazon Web Services 区域 不过，您可以在任何 Amazon Web Services 区域 设置一个 Grafana 工作区，然后将其配置为从位于其他 Amazon Web Services 区域的 Prometheus 工作区中获取指标数据。有关信息，请参阅[使用 Amazon 数据来源配置添加 Amazon Managed Service for Prometheus 作为数据来源](https://docs.amazonaws.cn/grafana/latest/userguide/AMP-adding-AWS-config.html)和[连接到 Amazon Managed Service for Prometheus 和开源 Prometheus 数据来源](https://docs.amazonaws.cn/grafana/latest/userguide/prometheus-data-source.html)。