Amazon Elastic Compute Cloud
Windows 实例用户指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

使用 CloudWatch 指标监控 Elastic Graphics

您可以使用 Amazon CloudWatch 监控 Elastic Graphics 加速器,这会收集有关您加速器性能的指标。这些统计数据会保存两周,以便您访问历史信息并更好地了解服务的运行情况。

默认情况下,Elastic Graphics 加速器按照 5 分钟的周期向 CloudWatch 发送指标数据。

有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南

Elastic Graphics 指标

AWS/ElasticGPUs 命名空间包括以下 Elastic Graphics 指标。

指标 描述

GPUConnectivityCheckFailed

报告与 Elastic Graphics 加速器的连接处于活动状态还是已失败。值为零 (0) 表示连接处于活动状态。值为一 (1) 表示连接故障。

单位:计数

GPUHealthCheckFailed

报告 Elastic Graphics 加速器在上一分钟内是否通过了运行状况状态检查。值为零 (0) 表示状态检查已通过。值为一 (1) 表示状态检查失败。

单位:计数

GPUMemoryUtilization

已用 GPU 内存。

单位:MiB

Elastic Graphics 维度

您可以使用以下维度筛选 Elastic Graphics 加速器的指标数据。

维度 说明

EGPUId

按 Elastic Graphics 加速器筛选数据。

InstanceId

按 Elastic Graphics 加速器附加到的实例筛选数据。

查看 Elastic Graphics 的 CloudWatch 指标

指标首先按服务命名空间进行分组,然后按支持的维度进行分组。您可以按照以下步骤查看 Elastic Graphics 加速器的指标。

使用 CloudWatch 控制台查看 Elastic Graphics 指标

  1. 通过以下网址打开 CloudWatch 控制台:https://console.amazonaws.cn/cloudwatch/

  2. 如果需要,可以更改区域。从导航栏中,选择 Elastic Graphics 加速器所在的区域。有关更多信息,请参阅 Regions and Endpoints

  3. 在导航窗格中,选择 Metrics

  4. 对于所有指标,选择 Elastic GraphicsElastic Graphics 指标

查看 Elastic Graphics 指标 (AWS CLI)

使用以下 list-metrics 命令:

aws cloudwatch list-metrics --namespace "AWS/ElasticGPUs"

创建 CloudWatch 警报以监控 Elastic Graphics 指标

您可以创建 CloudWatch 警报,用于在警报改变状态时发送 Amazon SNS 消息。警报会每隔一段时间 (间隔由您指定) 监控一个指标,并根据相对于给定阈值的指标值每隔若干个时间段向 Amazon SNS 主题发送一个通知。

例如,您可以创建警报来监控 Elastic Graphics 加速器的运行状况,并当图形加速器在 3 个连续的 5 分钟周期内未通过运行状况状态检查时发送通知。

创建 Elastic Graphics 加速器运行状况警报

  1. 通过以下网址打开 CloudWatch 控制台:https://console.amazonaws.cn/cloudwatch/

  2. 在导航窗格中,依次选择 AlarmsCreate Alarm

  3. 依次选择选择指标Elastic GraphicsElastic Graphics 指标

  4. 选择 GPUHealthCheckFailed 指标并选择选择指标

  5. 按如下所示配置警报:

    1. 对于警报详细信息,键入警报的名称和说明。对于每当,选择 >=,然后键入 1

    2. 对于操作,选择现有通知列表,或者选择新建列表

    3. 选择 Create Alarm