Amazon Elastic Compute Cloud
Windows 实例用户指南
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。点 击 Getting Started with Amazon AWS to see specific differences applicable to the China (Beijing) Region.

使用 CloudWatch 指标监视 Elastic GPU

您可以使用 Amazon CloudWatch 监视 Elastic GPU,该工具会收集有关您 Elastic GPU 的指标。这些统计数据会保存两周,以便您访问历史信息并更好地了解服务的运行情况。

默认情况下,Elastic GPU 向 CloudWatch 发送 5 分钟周期的指标数据。

有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南

Elastic GPU 指标和维度

您可以按照以下步骤查看 Elastic GPU 的各项指标。

使用 CloudWatch 控制台查看指标

指标的分组首先依据服务命名空间,然后依据每个命名空间内的各种维度组合。

  1. 通过以下网址打开 CloudWatch 控制台:https://console.amazonaws.cn/cloudwatch/

  2. 如果需要,可以更改区域。从导航栏中,选择 Elastic GPU 所在的区域。有关更多信息,请参阅区域和终端节点

  3. 在导航窗格中,选择 Metrics

  4. All metrics 下,选择指标类别,然后向下滚动以查看指标的完整列表。

使用 AWS CLI 查看指标

  • 在命令提示符处,输入以下命令:

    Copy
    aws cloudwatch list-metrics --namespace "AWS/ElasticGPUs"

CloudWatch 会显示 Elastic GPU 服务的以下指标。

指标 描述

GPUConnectivityCheckFailed

报告与 Elastic GPU 的连接处于活动状态还是已失败。值为零 (0) 表示连接处于活动状态。值为一 (1) 表示连接故障。

单位:计数

GPUHealthCheckFailed

报告 Elastic GPU 在上一分钟内是否通过了运行状况状态检查。值为零 (0) 表示状态检查已通过。值为一 (1) 表示状态检查失败。

单位:计数

GPUMemoryUtilization

已用 GPU 内存。

单位:MiB

可使用以下维度来筛选 Elastic GPU 数据。

维度 描述

EGPUId

该维度按 Elastic GPU 筛选数据。

InstanceId

该维度按 Elastic GPU 所挂载到的实例筛选数据。

创建 CloudWatch 警报监视 Elastic GPU

您可以创建 CloudWatch 警报,以在警报改变状态时发送 Amazon SNS 消息。警报会每隔一段时间 (间隔由您指定) 监控一个指标,并根据相对于给定阈值的指标值每隔若干个时间段向 Amazon SNS 主题发送一个通知。

例如,您可以创建警报来监控 Elastic GPU 的运行状况,并当 Elastic GPU 在 3 个连续的 5 分钟周期内未能通过运行状况状态检查时发送通知。

创建 Elastic GPU 运行状况警报

  1. 通过以下网址打开 CloudWatch 控制台:https://console.amazonaws.cn/cloudwatch/

  2. 在导航窗格中,依次选择 AlarmsCreate Alarm

  3. 选择 Elastic GPU Metrics

  4. 选择 Elastic GPU 和 GPUHealthCheckFailed 指标并 选择 Next

  5. 按如下所示配置警报,然后在完成后选择 Create Alarm

    • Alarm Threshold 下,输入警报的名称和说明。对于 Whenever,选择 => 并输入 1。输入 3 作为连续周期数。

    • Actions 下,选择现有通知列表,或者选择 New list 以创建一个新的通知列表。

    • Alarm Preview 下,选择以 5 分钟为周期。