导出的指标参考 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

导出的指标参考

以下各节列出了成功配置堆栈 SageMaker HyperPod 以实现可观察性后从亚马逊托管服务 Prometheus 导出的指标的完整列表。 Amazon CloudFormation SageMaker HyperPod 您可以开始监控这些在 Amazon Managed Grafana 控制面板中可视化的指标。

Slurm 导出器仪表板

提供 Slurm 集群的可视化信息。 SageMaker HyperPod

指标的类型

  • 集群概述:显示节点总数、任务及其状态。

  • Job 指标:可视化一段时间内的作业数量和状态。

  • 节点指标:显示节点状态、分配和可用资源。

  • 分区指标:监控特定于分区的指标,例如 CPU、内存和 GPU 利用率。

  • 工作效率:根据资源利用率计算工作效率。

指标清单

指标名称 描述
slurm_job_count Slurm 集群中的任务总数
slurm_job_state_count 每种状态(例如,正在运行、待处理、已完成)的任务计数
slurm_node_count Slurm 集群中的节点总数
slurm_node_state_count 每种状态下的节点数量(例如,空闲、分配、混合)
slurm_partition_node_count 每个分区中的节点数
slurm_partition_job_count 每个分区中的任务数
slurm_partition_alloc_cpus 每个分区中分配的 CPU 总数
slurm_partition_free_cpus 每个分区中可用 CPU 的总数
slurm_partition_alloc_memory 每个分区中分配的内存总量
slurm_partition_free_memory 每个分区中的可用内存总量
slurm_partition_alloc_gpus 每个分区中分配的 GPU 总数
slurm_partition_free_gpus 每个分区中可用的 GPU 总数

节点导出器仪表板

提供 Prometheus 节点导出器从集群节点收集的系统指标的可视化信息。 HyperPod

指标的类型

  • 系统概述:显示 CPU 平均负载和内存使用情况。

  • 内存指标:可视化内存利用率,包括总内存、可用内存和交换空间。

  • 磁盘使用情况:监控磁盘空间利用率和可用性。

  • 网络流量:显示一段时间内接收和传输的网络字节数。

  • 文件系统指标:分析文件系统的使用率和可用性。

  • 磁盘 I/O 指标:可视化磁盘读取和写入活动。

指标清单

有关导出的指标的完整列表,请参阅节点导出器procfs GitHub 存储库。下表显示了一部分指标,这些指标可以深入了解系统资源利用率,例如 CPU 负载、内存使用情况、磁盘空间和网络活动。

指标名称 描述
node_load1 1 分钟平均负载
node_load5 5 分钟平均负载
node_load15 平均负载 15 分钟
node_memory_MemTotal 系统总内存
node_memory_MemFree 可用系统内存
node_memory_MemAvailable 用于分配给进程的可用内存
node_memory_Buffers 内核用于缓冲的内存
node_memory_Cached 内核用于缓存文件系统数据的内存
node_memory_SwapTotal 可用交换空间总量
node_memory_SwapFree 免费交换空间
node_memory_SwapCached 曾经换出的内存已换回但仍处于交换状态
node_filesystem_avail_bytes 可用磁盘空间(以字节为单位)
node_filesystem_size_bytes 磁盘总空间(以字节为单位)
node_filesystem_free_bytes 可用磁盘空间(以字节为单位)
node_network_receive_bytes 收到的网络字节数
node_network_transmit_bytes 传输的网络字节数
node_disk_read_bytes 读取的磁盘字节数
node_disk_written_bytes 写入的磁盘字节数

NVIDIA DCGM 出口商

提供由 NVIDIA DCGM 导出器收集的 NVIDI A GPU 指标的可视化信息。

指标的类型

  • GPU 概述:显示 GPU 利用率、温度、功耗和内存使用情况。

  • 温度指标:可视化一段时间内的 GPU 温度。

  • 电源使用情况:监控 GPU 功耗和用电趋势。

  • 内存利用率:分析 GPU 内存使用情况,包括已用内存、可用内存和总内存。

  • 风扇速度:显示 GPU 风扇速度和变化。

  • ECC 错误:跟踪 GPU 内存 ECC 错误和待处理错误。

指标清单

下表列出了可深入了解 NVIDIA GPU 运行状况和性能的指标,包括时钟频率、温度、功耗、内存利用率、风扇速度和错误指标。

指标名称 描述
DCGM_FI_DEV_SM_CLOCK SM 时钟频率(以 MHz 为单位)
DCGM_FI_DEV_MEM_CLOCK 内存时钟频率(以 MHz 为单位)
DCGM_FI_DEV_MEMORY_TEMP 内存温度(以摄氏度为单位)
DCGM_FI_DEV_GPU_TEMP GPU 温度(以摄氏度为单位)
DCGM_FI_DEV_POWER_USAGE 功耗(以 W 为单位)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION 自启动以来的总能耗(以 mJ 为单位)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER PCIe 重试总次数
DCGM_FI_DEV_MEM_COPY_UTIL 内存利用率(以% 为单位)
DCGM_FI_DEV_ENC_UTIL 编码器利用率(百分比)
DCGM_FI_DEV_DEC_UTIL 解码器利用率(百分比)
DCGM_FI_DEV_XID_ERRORS 遇到的最后一个 XID 错误的值
DCGM_FI_DEV_FB_FREE 帧缓冲器可用内存(以 MiB 为单位)
DCGM_FI_DEV_FB_USED 使用的帧缓冲内存(以 MiB 为单位)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL 所有通道的 NVLink 带宽计数器总数
DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU 许可状态
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS 因无法更正的错误而重新映射的行数
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS 可更正错误的重映射行数
DCGM_FI_DEV_ROW_REMAP_FAILURE 行的重映射是否失败

EFA 指标控制面板

提供 EF A 节点导出器收集的 P 实例上配备的 Amazon Elastic Fabric Adapter (EFA) 指标的可视化信息。

指标的类型

  • EFA 错误指标:可视化错误,例如分配错误、命令错误和内存映射错误。

  • EFA 网络流量:监控已接收和传输的字节、数据包和工作请求。

  • EFA RDMA 性能:分析 RDMA 读取和写入操作,包括传输的字节数和错误率。

  • EFA 端口寿命:显示 EFA 端口随时间变化的使用寿命。

  • EFA keep-alive 数据包:跟踪收到的保持连接数据包的数量。

指标清单

下表列出了一些指标,这些指标可以深入了解 EFA 操作的各个方面,包括错误、已完成的命令、网络流量和资源利用率。

指标名称 描述
node_amazonefa_info 来自 /sys/class/infiniband/ 的非数字数据,值始终为 1。
node_amazonefa_lifespan 港口的使用寿命
node_amazonefa_rdma_read_bytes 使用 RDMA 读取的字节数
node_amazonefa_rdma_read_resp_bytes 使用 RDMA 读取的响应字节数
node_amazonefa_rdma_read_wr_err RDMA 的读写错误数
node_amazonefa_rdma_read_wrs 使用 RDMA 的读取次数
node_amazonefa_rdma_write_bytes 使用 RDMA 写入的字节数
node_amazonefa_rdma_write_recv_bytes 使用 RDMA 写入和接收的字节数
node_amazonefa_rdma_write_wr_err 写入时出现错误 RDMA 的字节数
node_amazonefa_rdma_write_wrs rdma 写入的字节数
node_amazonefa_recv_bytes 接收的字节数
node_amazonefa_recv_wrs 收到的字节数 wrs
node_amazonefa_rx_bytes 接收的字节数
node_amazonefa_rx_drops 丢弃的数据包数
node_amazonefa_rx_pkts 收到的数据包数量
node_amazonefa_send_bytes 发送的字节数
node_amazonefa_send_wrs 发送的战争次数
node_amazonefa_tx_bytes 传输的字节数
node_amazonefa_tx_pkts 传输的数据包数量

FSx for Lustre 指标控制面板

提供亚马逊收集的来自 Amazon FSx for Lustre 文件系统的指标的可视化信息。 CloudWatch

注意

Grafana fsX for Lustre 控制面板 CloudWatch 使用亚马逊作为其数据源,这与您配置为使用适用于 Prometheus 的亚马逊托管服务的其他控制面板不同。为确保准确监控和可视化与 FSx for Lustre 文件系统相关的指标,请将 FSx for Lustre 控制面板配置为 CloudWatch 使用亚马逊作为数据源,指定与 FSx for Lustre 文件系统的部署 Amazon Web Services 区域 位置相同。

指标的类型

  • DataReadBytes:文件系统读取操作的字节数。

  • DataWriteBytes:文件系统写入操作的字节数。

  • DataReadOperations:读取操作的数量。

  • DataWriteOperations:写入操作的数量。

  • MetadataOperations:元数据操作的数量。

  • FreeDataStorageCapacity:可用存储容量。