

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 通过亚马逊托管 Grafana 和适用于 Prometheus 的亚马逊托管服务实现亚马逊 SageMaker HyperPod 的可观察性
<a name="sagemaker-hyperpod-observability-addon"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) 提供了一个全面的 out-of-the-box控制面板，可让您深入了解基础模型 (FM) 开发任务和集群资源。此统一的可观测性解决方案会自动将关键指标发布到 Amazon Managed Service for Prometheus，并在 Amazon Managed Grafana 控制面板中展示这些指标。这些控制面板已专门针对基础模型开发进行优化，深度覆盖了硬件运行状况、资源利用率以及任务级性能。使用此附加组件，您可以整合来自 NVIDIA DCGM、实例级 Kubernetes 节点导出器、Elastic Fabric Adapter、集成文件系统、Kubernetes、K APIs ueue 和任务操作员的运行状况和性能数据。 SageMaker HyperPod 

## 受限实例组 (RIG) 支持
<a name="hyperpod-observability-addon-rig-support"></a>

可观察性插件还支持包含受限实例组的集群。在 RIG 集群中，插件会自动调整其部署策略，以符合受限节点的网络隔离和安全限制。 DaemonSet 组件（节点导出器、DCGM 导出器、EFA 导出器、神经元监视器和节点收集器）在标准节点和受限节点上运行。部署组件（中央收集器、Kube 状态指标和训练指标代理）采用边界感知逻辑进行调度，以尊重实例组之间的网络隔离。使用 Fluent Bit 收集容器日志在受限节点上不可用。

有关在具有受限实例组的集群上设置插件的信息，请参阅[设置可 SageMaker HyperPod 观测性插件](hyperpod-observability-addon-setup.md)。

**Topics**
+ [受限实例组 (RIG) 支持](#hyperpod-observability-addon-rig-support)
+ [设置可 SageMaker HyperPod 观测性插件](hyperpod-observability-addon-setup.md)
+ [Amazon SageMaker HyperPod 可观测性控制面板](hyperpod-observability-addon-viewing-dashboards.md)
+ [探索亚马逊托管 Grafana 中的 SageMaker HyperPod 集群指标](hyperpod-observability-addon-exploring-metrics.md)
+ [自定义 SageMaker HyperPod 集群指标、仪表板和警报](hyperpod-observability-addon-customizing.md)
+ [创建自定义 SageMaker HyperPod 集群指标](hyperpod-observability-addon-custom-metrics.md)
+ [SageMaker HyperPod 集群指标](hyperpod-observability-cluster-metrics.md)
+ [预配置的警报](hyperpod-observability-addon-alerts.md)
+ [对 Amazon SageMaker HyperPod 可观测性附加组件进行故障排除](hyperpod-observability-addon-troubleshooting.md)