使用多个时间序列创建实例集监控告警 - Amazon CloudWatch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用多个时间序列创建实例集监控告警

您可以创建告警来监控资源实例集的多个时间序列。与仅针对单个实例触发操作的单实例告警不同,实例集监控告警可让您聚合多个资源的指标,并根据整个实例集的情况触发操作。

使用 Amazon Web Services Management Console设置实例集监控告警

此示例展示了如何创建可监控实例集中的内存利用率且在有两个以上的实例超过阈值时向您发出警报的告警。

创建实例集监控告警的步骤
  1. 访问 https://console.aws.amazon.com/cloudwatch/,打开 CloudWatch 控制台。

  2. 在导航窗格中,依次选择 Alarms(告警)和 All alarms(所有告警)。

  3. 选择创建警报

  4. 选择选择指标

  5. 指标下输入 Metrics Insights 查询:

    SELECT MAX(mem_used_percent) FROM "CWAgent" GROUP BY InstanceId ORDER BY MAX() DESC
  6. 选择下一步

  7. 条件下面,指定以下内容:

    • 对于 Threshold type(阈值类型),选择 Static(静态)

    • 当指标下选择大于,然后输入 80

    • 告警数据点数中输入 2

  8. 根据需要配置通知和操作。

  9. 添加告警的名称和描述。

  10. 选择创建警报

此告警与单实例告警在多个方面存在差异:

  • 其通过使用指标查询同时监控多个时间序列。每当告警进行评估时,指标查询都会刷新,因此告警会随着资源的创建、暂停或删除而自动调整。

  • 对于每个超出阈值的影响因素,告警都会发送一个影响因素状态更改事件,该事件在 EventBridge 中的事件类型与告警状态更改事件不同。告警本身也会同步更改状态:只要至少有一个影响因素处于告警状态,告警就会进入告警状态。

  • 但是,某些操作(例如 SSM 事件)是在告警级别触发的。当告警中的影响因素列表发生变化时,将不会再重复此类操作。

此告警与聚合指标查询告警在多个方面存在差异:

  • 其使用 GROUP BY 子句而非监控聚合指标单独监控时间序列。

  • 其根据您按需求设置的粒度级别进行告警:例如,可针对每个 Amazon EC2 实例(这是 Amazon EC2 指标最细的粒度级别)触发告警,也可针对每张 Amazon RDS 表(基于某数据表上各类操作的聚合数据))触发告警,具体取决于您在 GROUP BY 子句中设置的字段

  • 其使用 ORDER BY 子句确定评估的优先级。

  • 对于每个超出阈值的影响因素,告警都会发送一个影响因素状态更改事件,该事件在 EventBridge 中的事件类型与告警状态更改事件不同。告警本身也会同步更改状态:只要至少有一个影响因素处于告警状态,告警就会进入告警状态。

  • 但是,某些操作(例如 SSM 事件)是在告警级别触发的。当告警中的影响因素列表发生变化时,将不会再重复此类操作。