使用 CloudWatch 监控指标 Elastic Graphics
重要
Amazon Elastic Graphics 已于 2024 年 1 月 8 日结束生命周期。对于需要图形加速的工作负载,建议使用 Amazon EC2 G4ad、G4dn 或 G5 实例。
您可以使用 Amazon CloudWatch 监控 Elastic Graphics 加速器,这会收集有关您加速器性能的指标。这些统计数据会保存两周,以便您访问历史信息并更好地了解服务的运行情况。
默认情况下,Elastic Graphics 加速器按照 5 分钟的周期向 CloudWatch 发送指标数据。
有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南。
Elastic Graphics 指标
AWS/ElasticGPUs
命名空间包括以下 Elastic Graphics 指标。
指标 | 描述 |
---|---|
GPUConnectivityCheckFailed |
报告与 Elastic Graphics 加速器的连接处于活动状态还是已失败。值为零 (0) 表示连接处于活动状态。值为一 (1) 表示连接故障。 单位:计数 |
GPUHealthCheckFailed |
报告 Elastic Graphics 加速器在上一分钟内是否通过了运行状况状态检查。值为零 (0) 表示状态检查已通过。值为一 (1) 表示状态检查失败。 单位:计数 |
GPUMemoryUtilization |
已用 GPU 内存。 单位:MiB |
Elastic Graphics 维度
您可以使用以下维度筛选 Elastic Graphics 加速器的指标数据。
维度 | 描述 |
---|---|
EGPUId |
按 Elastic Graphics 加速器筛选数据。 |
InstanceId |
按 Elastic Graphics 加速器附加到的实例筛选数据。 |
查看 Elastic Graphics 的 CloudWatch 指标
指标首先按服务命名空间进行分组,然后按支持的维度进行分组。您可以按照以下步骤查看 Elastic Graphics 加速器的指标。
使用 CloudWatch 控制台查看 Elastic Graphics 指标
通过以下网址打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch/
。 -
如果需要,可以更改区域。从导航栏中,选择 Elastic Graphics 加速器所在的区域。有关更多信息,请参阅区域和端点。
-
在导航窗格中,选择指标。
-
对于所有指标,选择 Elastic Graphics、Elastic Graphics 指标。
查看 Elastic Graphics 指标 (Amazon CLI)
使用以下 list-metrics 命令:
aws cloudwatch list-metrics --namespace "AWS/ElasticGPUs"
创建 CloudWatch 警报以监控 Elastic Graphics
可以创建 CloudWatch 告警,在告警改变状态时发送 Amazon SNS 消息。警报会每隔一段时间(间隔由您指定)监控一个指标,并根据指标值与给定阈值的相对关系每隔若干个时间段向 Amazon SNS 主题发送一个通知。
例如,您可以创建警报来监控 Elastic Graphics 加速器的运行状况,并当图形加速器在 3 个连续的 5 分钟周期内未通过运行状况状态检查时发送通知。
创建 Elastic Graphics 加速器运行状况警报
通过以下网址打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch/
。 -
在导航窗格中,依次选择 Alarms 和 Create Alarm。
-
依次选择选择指标、Elastic Graphics、Elastic Graphics 指标。
-
选择 GPUHealthCheckFailed 指标并选择选择指标。
-
按如下所示配置警报:
-
对于警报详细信息,键入警报的名称和说明。对于每当,选择 >=,然后键入
1
。 -
对于操作,选择现有通知列表,或者选择新建列表。
-
选择创建警报。
-