收集 NVIDIA GPU 指标 - Amazon CloudWatch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

收集 NVIDIA GPU 指标

您可以使用 CloudWatch 代理从 Linux 服务器收集 NVIDIA GPU 指标。要对此进行设置,请在 CloudWatch 代理配置文件的 metrics_collected 部分中添加 nvidia_gpu 部分。有关更多信息,请参阅 Linux 部分

此外,该实例必须已经安装 NVIDIA 驱动程序。某些亚马逊机器映像(AMI)上已经预装 NVIDIA 驱动程序。如果没有安装,您可以手动安装该驱动程序。有关更多信息,请参见在 Linux 实例上安装 NVIDIA 驱动程序

可以收集以下指标。所有这些指标都在没有 CloudWatch Unit 的情况下收集,但是您可以通过向 CloudWatch 代理配置文件添加参数来为每个指标指定单位。有关更多信息,请参阅 Linux 部分

指标 CloudWatch 的指标名称 描述

utilization_gpu

nvidia_smi_utilization_gpu

在过去的采样周期内 GPU 上的一个或多个内核运行的时间百分比。

temperature_gpu

nvidia_smi_temperature_gpu

GPU 核心温度(以摄氏度为单位)。

power_draw

nvidia_smi_power_draw

上次测量的整个显卡功耗(以瓦为单位)。

utilization_memory

nvidia_smi_utilization_memory

在过去的样本周期内读取或写入全局(设备)内存的时间百分比。

fan_speed

nvidia_smi_fan_speed

设备风扇目前预计以最大风扇速度运行的百分比。

memory_total

nvidia_smi_memory_total

报告的总内存(以 MB 为单位)。

memory_used

nvidia_smi_memory_used

已使用的内存(以 MB 为单位)。

memory_free

nvidia_smi_memory_free

空闲内存(以 MB 为单位)。

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

当前链接生成。

pcie_link_width_current

nvidia_smi_pcie_link_width_current

当前链接宽度。

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

当前编码器会话数量。

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

每秒编码帧数的移动平均值。

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

编码延迟的移动平均值(以微秒为单位)。

clocks_current_graphics

nvidia_smi_clocks_current_graphics

显卡(着色器)时钟的当前频率。

clocks_current_sm

nvidia_smi_clocks_current_sm

流式多处理器(SM)时钟的当前频率。

clocks_current_memory

nvidia_smi_clocks_current_memory

内存时钟的当前频率。

clocks_current_video

nvidia_smi_clocks_current_video

视频(编码器加解码器)时钟的当前频率。

所有这些指标都使用以下维度收集:

维度 描述

index

此服务器上 GPU 的唯一标识符。表示设备的 NVIDIA 管理库(NVML)索引。

name

GPU 类型。例如,NVIDIA Tesla A100

host

服务器主机名。