

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# SageMaker HyperPod 集群资源监控
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

[要实现 SageMaker HyperPod 集群资源和软件组件的全面可观察性，请将集群与[适用于 Prometheus 的亚马逊托管服务和 Amazon M](https://docs.amazonaws.cn/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) anaged Grafana 集成。](https://docs.amazonaws.cn/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html)通过与 Amazon Prometheus 托管服务的集成，可以导出与 HyperPod 您的集群资源相关的指标，从而深入了解其性能、利用率和运行状况。与 Amazon Managed Grafana 集成后，可以通过各种 Grafana 控制面板实现这些指标的可视化，为监控和分析集群行为提供直观的界面。通过利用这些服务，您可以获得 HyperPod 集群的集中统一视图，从而便于对分布式训练工作负载进行主动监控、故障排除和优化。

**提示**  
要查找实际示例和解决方案，另请参阅[SageMaker HyperPod研讨会](https://catalog.workshops.aws/sagemaker-hyperpod)。

![\[使用适用于 Prometheus SageMaker HyperPod 的亚马逊托管服务和亚马逊托管 Grafana 进行配置的概述。\]](http://docs.amazonaws.cn/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


图：此架构图显示了 SageMaker HyperPod 使用适用于 Prometheus 的亚马逊托管服务和 Amazon Managed Grafana 进行配置的概述。

继续阅读以下主题以设置 SageMaker HyperPod 集群可观测性。

**Topics**
+ [SageMaker HyperPod 集群可观测性的先决条件](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [在 HyperPod 集群上安装指标导出器包](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [验证集群头节点上的 Prometheus 设置 HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [设置 Amazon Managed Grafana 工作区](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [导出的指标参考](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Amazon SageMaker HyperPod Slurm 指标](smcluster-slurm-metrics.md)