适用于 Amazon Elasticsearch Service 的推荐 CloudWatch 警报 - Amazon Elasticsearch Service
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

适用于 Amazon Elasticsearch Service 的推荐 CloudWatch 警报

当一段时间内 CloudWatch 指标超出指定的值时,CloudWatch 警报将会执行某个操作。例如,您可能希望 Amazon 在集群运行状况为 red 的时间超过 1 分钟时向您发送电子邮件。本部分包括一些建议警报 Amazon Elasticsearch Service (Amazon ES) 其响应方式。

有关设置警报的更多信息,请参阅创建 Amazon CloudWatch 警报中的Amazon CloudWatch 用户指南

警报 问题
ClusterStatus.red 最大值 >= 1 达到 1 分钟,1 次连续时间 至少有一个主分片其及副本未分配给节点。请参阅 红色集群状态
ClusterStatus.yellow 最大值 >= 1 达到 1 分钟,1 次连续时间 至少有一个副本分片未分配给节点。请参阅 黄色集群状态
FreeStorageSpace 最小值 <= 20480 达到 1 分钟,1 次连续时间 您的集群中的节点已降至 20GiB 的可用存储空间。请参阅 缺乏可用存储空间。此值以 MiB 为单位,因此我们建议将其设置为每个节点的存储空间的 25%,而不是 20480。
ClusterIndexWritesBlocked 大于等于 1 达到 5 分钟,1 次连续时间 您的群集正在阻止写入请求。请参阅 ClusterBlockException
Nodes 最小值 < x 达到 1 天,1 次连续时间 x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。请参阅 集群节点失败
AutomatedSnapshotFailure 最大值 >= 1 达到 1 分钟,1 次连续时间 自动快照失败。此故障通常由红色群集运行状况导致。请参阅 红色集群状态

有关所有自动快照的摘要和一些有关故障的信息,请尝试以下请求之一:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
CPUUtilization或者WarmCPUUtilization最大值 >= 80% 达到 15 分钟,连续 3 次 100% CPU 利用率并非不常见,但持续的 高使用率是有问题的。考虑使用更大的实例类型或添加实例。
JVMMemoryPressure或者WarmJVMMemoryPressure最大值 >= 80% 达到 5 分钟,3 次连续时间 如果使用量增加,群集可能会遇到内存不足错误。请考虑垂直扩展:Amazon ES 将实例的 RAM 的一半用于 Java 堆,最大堆大小为 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。
MasterCPUUtilization 最大值 >= 50% 达到 15 分钟,连续 3 次 考虑将更大的实例类型用于您的专用主节点。由于其在集群稳定性和蓝/绿部署中的作用,专用主节点的 CPU 使用率应比数据节点低。
MasterJVMMemoryPressure 最大值 >= 80% 达到 15 分钟,1 次连续时间
KMSKeyError >= 1 达到 1 分钟,1 次连续时间 用于在您的域中加密静态数据的 KMS 加密密钥已禁用。重新启用它可恢复正常操作。有关更多信息,请参阅 Amazon Elasticsearch Service 中的静态数据加密
KMSKeyInaccessible >= 1 达到 1 分钟,1 次连续时间 用于在您的域中加密静态数据的 KMS 加密密钥已被删除或已撤销其对 Amazon ES 的授权。您无法恢复处于此状态的域,但如果您有一个手动快照,则可以用它来迁移至新的域。要了解更多信息,请参阅“Amazon Elasticsearch Service 中的静态数据加密”。
注意

如果您只想查看 指标,请参阅监控 CloudWatch 指标