使用 CloudWatch 监控指标 Elastic Graphics - Amazon Elastic Compute Cloud
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 CloudWatch 监控指标 Elastic Graphics

重要

Amazon Elastic Graphics 已于 2024 年 1 月 8 日结束生命周期。对于需要图形加速的工作负载,建议使用 Amazon EC2 G4ad、G4dn 或 G5 实例。

您可以使用 Amazon CloudWatch 监控 Elastic Graphics 加速器,这会收集有关您加速器性能的指标。这些统计数据会保存两周,以便您访问历史信息并更好地了解服务的运行情况。

默认情况下,Elastic Graphics 加速器按照 5 分钟的周期向 CloudWatch 发送指标数据。

有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南

Elastic Graphics 指标

AWS/ElasticGPUs 命名空间包括以下 Elastic Graphics 指标。

指标 描述

GPUConnectivityCheckFailed

报告与 Elastic Graphics 加速器的连接处于活动状态还是已失败。值为零 (0) 表示连接处于活动状态。值为一 (1) 表示连接故障。

单位:计数

GPUHealthCheckFailed

报告 Elastic Graphics 加速器在上一分钟内是否通过了运行状况状态检查。值为零 (0) 表示状态检查已通过。值为一 (1) 表示状态检查失败。

单位:计数

GPUMemoryUtilization

已用 GPU 内存。

单位:MiB

Elastic Graphics 维度

您可以使用以下维度筛选 Elastic Graphics 加速器的指标数据。

维度 描述
EGPUId 按 Elastic Graphics 加速器筛选数据。
InstanceId 按 Elastic Graphics 加速器附加到的实例筛选数据。

查看 Elastic Graphics 的 CloudWatch 指标

指标首先按服务命名空间进行分组,然后按支持的维度进行分组。您可以按照以下步骤查看 Elastic Graphics 加速器的指标。

使用 CloudWatch 控制台查看 Elastic Graphics 指标
  1. 通过以下网址打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch/

  2. 如果需要,可以更改区域。从导航栏中,选择 Elastic Graphics 加速器所在的区域。有关更多信息,请参阅区域和端点

  3. 在导航窗格中,选择指标

  4. 对于所有指标,选择 Elastic GraphicsElastic Graphics 指标

查看 Elastic Graphics 指标 (Amazon CLI)

使用以下 list-metrics 命令:

aws cloudwatch list-metrics --namespace "AWS/ElasticGPUs"

创建 CloudWatch 警报以监控 Elastic Graphics

可以创建 CloudWatch 告警,在告警改变状态时发送 Amazon SNS 消息。警报会每隔一段时间(间隔由您指定)监控一个指标,并根据指标值与给定阈值的相对关系每隔若干个时间段向 Amazon SNS 主题发送一个通知。

例如,您可以创建警报来监控 Elastic Graphics 加速器的运行状况,并当图形加速器在 3 个连续的 5 分钟周期内未通过运行状况状态检查时发送通知。

创建 Elastic Graphics 加速器运行状况警报
  1. 通过以下网址打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch/

  2. 在导航窗格中,依次选择 AlarmsCreate Alarm

  3. 依次选择选择指标Elastic GraphicsElastic Graphics 指标

  4. 选择 GPUHealthCheckFailed 指标并选择选择指标

  5. 按如下所示配置警报:

    1. 对于警报详细信息,键入警报的名称和说明。对于每当,选择 >=,然后键入 1

    2. 对于操作,选择现有通知列表,或者选择新建列表

    3. 选择创建警报