

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 导出的指标参考
导出的指标参考

以下各节列出了成功配置堆栈 SageMaker HyperPod 以实现可观察性后从亚马逊托管服务 Prometheus 导出的指标的完整列表。 Amazon CloudFormation SageMaker HyperPod 您可以在 Amazon Managed Grafana 面板中开始监控这些可视化指标。

## Slurm 导出程序控制面板


提供 Slurm 集群的可视化信息。 SageMaker HyperPod

**指标类型**
+ **集群概览：**显示节点、作业总数及其状态。
+ **作业指标：**可视化一段时间内的作业数量和状态。
+ **节点指标：**显示节点状态、分配和可用资源。
+ **分区指标：**监控特定分区的指标，如 CPU、内存和 GPU 利用率。
+ **作业效率：**根据使用的资源计算作业效率。

**指标列表**


| 指标名称 | 说明 | 
| --- | --- | 
| slurm\$1job\$1count | Slurm 集群中的作业总数 | 
| slurm\$1job\$1state\$1count | 处于各种状态（如运行中、待处理、已完成）的作业数 | 
| slurm\$1node\$1count  | Slurm 集群的节点总数 | 
| slurm\$1node\$1state\$1count  | 处于各种状态（如空闲、分配、混合）的节点数 | 
| slurm\$1partition\$1node\$1count  | 每个分区的节点数 | 
| slurm\$1partition\$1job\$1count  | 每个分区的作业计数 | 
| slurm\$1partition\$1alloc\$1cpus  | 每个分区 CPUs 中分配的总数 | 
| slurm\$1partition\$1free\$1cpus  | 每个分区 CPUs 中可用的总数 | 
| slurm\$1partition\$1alloc\$1memory  | 每个分区分配的内存总量 | 
| slurm\$1partition\$1free\$1memory  | 每个分区的可用内存总量 | 
| slurm\$1partition\$1alloc\$1gpus  | 每个分区 GPUs 中分配的总数 | 
| slurm\$1partition\$1free\$1gpus  | 每个分区 GPUs 中的可用总数 | 

## 节点导出程序控制面板


提供 [Prometheus](https://github.com/prometheus/node_exporter) 节点导出器从集群节点收集的系统指标的可视化信息。 HyperPod 

**指标类型**
+ **系统概述：**显示 CPU 负载平均值和内存使用情况。
+ **内存指标：**可视化内存使用情况，包括总内存、可用内存和交换空间。
+ **磁盘使用情况：**监控磁盘空间利用率和可用性。
+ **网络流量：**显示一段时间内接收和传输的网络字节数。
+ **文件系统指标：**分析文件系统的使用情况和可用性。
+ **磁盘 I/O 指标：**可视化磁盘读取和写入活动。

**指标列表**

有关导出的指标的完整列表，请参阅 [Node 导出器](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default)和 [procfs](https://github.com/prometheus/procfs?tab=readme-ov-file) GitHub 存储库。下表列出了部分指标，可帮助用户深入了解 CPU 负载、内存使用、磁盘空间和网络活动等系统资源利用情况。


| 指标名称 | 说明 | 
| --- | --- | 
|  node\$1load1  | 1 分钟平均负荷 | 
|  node\$1load5  | 5 分钟平均负荷 | 
|  node\$1load15  | 15 分钟平均负荷 | 
|  node\$1memory\$1MemTotal  | 系统内存总量 | 
|  node\$1memory\$1MemFree  | 释放系统内存 | 
|  node\$1memory\$1MemAvailable  | 可分配给进程的可用内存 | 
|  node\$1memory\$1Buffers  | 内核用于缓冲的内存 | 
|  node\$1memory\$1Cached  | 内核用于缓存文件系统数据的内存 | 
|  node\$1memory\$1SwapTotal  | 可用交换空间总数 | 
|  node\$1memory\$1SwapFree  | 自由交换空间 | 
|  node\$1memory\$1SwapCached  | 曾被换出的内存被换回，但仍处于交换状态 | 
|  node\$1filesystem\$1avail\$1bytes  | 可用磁盘空间（单位：字节） | 
|  node\$1filesystem\$1size\$1bytes  | 磁盘空间总量（单位：字节） | 
|  node\$1filesystem\$1free\$1bytes  | 可用磁盘空间（单位：字节） | 
|  node\$1network\$1receive\$1bytes  | 收到的网络字节数 | 
|  node\$1network\$1transmit\$1bytes  | 传输的网络字节数 | 
|  node\$1disk\$1read\$1bytes  | 读取的磁盘字节数 | 
|  node\$1disk\$1written\$1bytes  | 写入的磁盘字节数 | 

## NVIDIA DCGM 导出器控制面板


提供由 [NVIDIA DCGM 导出程序](https://github.com/NVIDIA/dcgm-exporter)收集的 NVIDIA GPU 指标的可视化信息。

**指标类型**
+ **GPU 概览：**显示 GPU 利用率、温度、功耗和内存使用情况。
+ **温度指标：**可视化 GPU 随时间变化的温度。
+ **电源使用：**监控 GPU 功耗和用电趋势。
+ **内存使用情况：**分析 GPU 内存使用情况，包括已用内存、可用内存和总内存。
+ **风扇速度：**显示 GPU 风扇速度和变化。
+ **ECC 错误：**跟踪 GPU 内存 ECC 错误和待处理错误。

**指标列表**

下表列出的指标可帮助用户深入了解 NVIDIA GPU 的运行状况和性能，包括时钟频率、温度、用电量、内存利用率、风扇速度和错误指标。


| 指标名称 | 说明 | 
| --- | --- | 
|  DCGM\$1FI\$1DEV\$1SM\$1CLOCK  | SM 时钟频率 (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEM\$1CLOCK  | 内存时钟频率 (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEMORY\$1TEMP  | 内存温度（单位：摄氏度） | 
|  DCGM\$1FI\$1DEV\$1GPU\$1TEMP  | GPU 温度（单位：摄氏度） | 
|  DCGM\$1FI\$1DEV\$1POWER\$1USAGE  | 耗电量（单位：瓦） | 
|  DCGM\$1FI\$1DEV\$1TOTAL\$1ENERGY\$1CONSUMPTION  | 启动以来的总能耗（单位：兆焦耳） | 
|  DCGM\$1FI\$1DEV\$1PCIE\$1REPLAY\$1COUNTER  |  PCIe 重试总次数 | 
|  DCGM\$1FI\$1DEV\$1MEM\$1COPY\$1UTIL  | 内存利用率（单位：%） | 
|  DCGM\$1FI\$1DEV\$1ENC\$1UTIL  | 编码器利用率（单位：%） | 
|  DCGM\$1FI\$1DEV\$1DEC\$1UTIL  | 解码器利用率（单位：%） | 
|  DCGM\$1FI\$1DEV\$1XID\$1ERRORS  | 最后遇到的 XID 错误值 | 
|  DCGM\$1FI\$1DEV\$1FB\$1FREE  | 帧缓冲区可用内存（单位：MB） | 
|  DCGM\$1FI\$1DEV\$1FB\$1USED  | 使用的帧缓冲区内存（单位：MB） | 
|  DCGM\$1FI\$1DEV\$1NVLINK\$1BANDWIDTH\$1TOTAL  | 所有通道的 NVLink 带宽计数器总数 | 
|  DCGM\$1FI\$1DEV\$1VGPU\$1LICENSE\$1STATUS  | vGPU 许可证状态 | 
|  DCGM\$1FI\$1DEV\$1UNCORRECTABLE\$1REMAPPED\$1ROWS  | 无法纠正错误的重新映射行数 | 
|  DCGM\$1FI\$1DEV\$1CORRECTABLE\$1REMAPPED\$1ROWS  | 可纠正错误的重新映射行数 | 
|  DCGM\$1FI\$1DEV\$1ROW\$1REMAP\$1FAILURE  | 行的重新映射是否失败 | 

## EFA 指标控制面板


提供由 [EFA 节点导出程序](https://docs.amazonaws.cn/AWSEC2/latest/UserGuide/efa.html)收集的 P 实例上配备的 [Amazon Elastic Fabric Adapter（EFA）](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md)指标的可视化信息。

**指标类型**
+ **EFA 错误指标：**可视化分配错误、命令错误和内存映射错误等错误。
+ **EFA 网络流量：**监控接收和传输的字节、数据包和作业请求。
+ **EFA RDMA 性能：**分析 RDMA 读写操作，包括传输字节数和错误率。
+ **EFA 端口寿命：**显示 EFA 端口随时间变化的寿命。
+ **EFA 保持连接数据包：**跟踪收到的保持连接数据包的数量。

**指标列表**

下表列出了可深入了解 EFA 运行各个方面的指标，包括错误、已完成命令、网络流量和资源利用率。


| 指标名称 | 说明 | 
| --- | --- | 
|  node\$1amazonefa\$1info  | 来自/sys/class/infiniband/的非数字数据，值始终为 1。 | 
|  node\$1amazonefa\$1lifespan  | 端口寿命 | 
|  node\$1amazonefa\$1rdma\$1read\$1bytes  | RDMA 读取的字节数 | 
|  node\$1amazonefa\$1rdma\$1read\$1resp\$1bytes  | RDMA 读取响应字节数 | 
|  node\$1amazonefa\$1rdma\$1read\$1wr\$1err  | RDMA 读写错误次数 | 
|  node\$1amazonefa\$1rdma\$1read\$1wrs  | RDMA 的读取次数 | 
|  node\$1amazonefa\$1rdma\$1write\$1bytes  | RDMA 写入的字节数 | 
|  node\$1amazonefa\$1rdma\$1write\$1recv\$1bytes  | RDMA 写入和接收的字节数 | 
|  node\$1amazonefa\$1rdma\$1write\$1wr\$1err  | 写入的错误 RDMA 字节数 | 
|  node\$1amazonefa\$1rdma\$1write\$1wrs  | 写入的 wrs RDMA 字节数 | 
|  node\$1amazonefa\$1recv\$1bytes  | 接收的字节数 | 
|  node\$1amazonefa\$1recv\$1wrs  | 接收的 wrs 字节数 | 
|  node\$1amazonefa\$1rx\$1bytes  | 接收的字节数 | 
|  node\$1amazonefa\$1rx\$1drops  | 丢弃的数据包数量 | 
|  node\$1amazonefa\$1rx\$1pkts  | 接收的数据包数量 | 
|  node\$1amazonefa\$1send\$1bytes  | 发送的字节数 | 
|  node\$1amazonefa\$1send\$1wrs  | 发送的 wrs 数量 | 
|  node\$1amazonefa\$1tx\$1bytes  | 传输的字节数 | 
|  node\$1amazonefa\$1tx\$1pkts  | 传输的数据包数量 | 

## FSx 适用于 Lustre 指标控制面板


[提供亚马逊收集的 [Amazon FSx for Lustre 文件系统指标](https://docs.amazonaws.cn/fsx/latest/LustreGuide/monitoring-cloudwatch.html)的可视化信息。 CloudWatch](https://docs.amazonaws.cn/fsx/latest/LustreGuide/monitoring-cloudwatch.html)

**注意**  
Grafana FSx for Lustre 控制面板使用 CloudWatch 亚马逊作为其数据源，这与您配置为使用适用于 Prometheus 的亚马逊托管服务的其他控制面板不同。为确保准确监控和可视化与 for Lustre 文件系统相关的指标，请将 for Lustre 控制面板配置 FSx 为使用 Amazon CloudWatch 作为数据源，指定与 for Lustre 文件系统的部署 Amazon Web Services 区域 位置相同。 FSx FSx 

**指标类型**
+ **DataReadBytes：**文件系统读取操作的字节数。
+ **DataWriteBytes：**文件系统写入操作的字节数。
+ **DataReadOperations：**读取操作的数量。
+ **DataWriteOperations：**写入操作的数量。
+ **MetadataOperations：**元数据操作的数量。
+ **FreeDataStorageCapacity：**可用存储容量。