使用 Amazon CloudWatch 监控 Amazon Elasticsearch Service 集群指标 - Amazon Elasticsearch Service
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon CloudWatch 监控 Amazon Elasticsearch Service 集群指标

Amazon Elasticsearch Service (Amazon ES) 将您的域中的数据发布到 Amazon CloudWatch。CloudWatch 允许您检索关于这些数据点的统计数据,作为一组有序的时间序列数据(称为指标。Amazon ES 每隔 60 秒将指标发送到 CloudWatch。如果您使用通用型 EBS 卷或磁性 EBS 卷,则 EBS 卷指标将仅每五分钟更新一次。有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南

Amazon ES 控制台将根据来自 CloudWatch 的原始数据显示一系列图表。根据您的需求,您既可以选择在 CloudWatch 中查看集群数据,也可以选择使用控制台中的图表。该服务会将指标存档两周,然后再丢弃。这些指标是免费提供的。

亚马逊 ES 会将以下指标发布到 CloudWatch:

在 CloudWatch 中查看指标

CloudWatch 指标首先按服务命名空间进行分组,然后按各命名空间内的各种维度组合进行分组。

使用 CloudWatch 控制台查看指标

  1. 通过以下网址打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch/

  2. 在导航窗格中,选择所有指标,然后选择Amazon/ES命名空间。

  3. 选择维度查看相应的指标。单个节点的衡量指标位于ClientId, DomainName, NodeId维度。集群指标位于Per-Domain, Per-Client Metrics维度。某些节点指标在集群级别进行聚合,因此包含在这两个维度中。分片指标位于ClientId, DomainName, NodeId, ShardRole维度。

要使用 Amazon CLI

运行以下 命令:

aws cloudwatch list-metrics --namespace "Amazon/ES"

在亚马逊 ES 中解释运行状况图

要查看亚马逊 ES 中的指标,请使用群集运行状况实例运行状况选项卡。这些区域有:实例运行状况选项卡使用框图来提供每个 Elasticsearch 节点的运行状况:

  • 每个彩色框显示指定时间段内节点的值范围。

  • 蓝框表示与其他节点一致的值。红框表示异常值。

  • 每个框中的白线显示节点的当前值。

  • 每个框两侧的“细线”显示该时间段内所有节点的最小值和最大值。

如果对您的域进行配置更改,则 Cluster health (集群运行状况)Instance health (实例运行状况) 选项卡中各个实例的列表的大小通常会在短时间内增长一倍,然后再恢复为正确数量。有关此行为的说明,请参阅在亚马逊 ES 中进行配置更改

集群指标

Amazon Elasticsearch Service 为群集提供以下指标。

指标 描述
ClusterStatus.green

值为 1 指示将所有索引分片分配给集群中的节点。

相关统计数据:最高

ClusterStatus.yellow 值为 1 指示将所有索引的主要分片分配给集群中的节点,但是至少有一个索引的分片副本不是如此。有关更多信息,请参阅黄色集群状态

相关统计数据:最高

ClusterStatus.red

值为 1 指示至少一个索引的主分片和副本分片未分配给集群中的节点。有关更多信息,请参阅红色集群状态

相关统计数据:最高

Shards.active

活动主分片和副本分片的总数。

相关统计数据:最大值,总计

Shards.unassigned

未分配给集群中节点的分片数。

相关统计数据:最大值,总计

Shards.delayedUnassigned

其节点分配因超时设置而延迟的分片数。

相关统计数据:最大值,总计

Shards.activePrimary

活动主分片的数量。

相关统计数据:最大值,总计

Shards.initializing

正在初始化的分片数。

相关统计数据:总计

Shards.relocating

正在重新定位的分片数。

相关统计数据:总计

Nodes

Amazon ES 集群中的节点数,包括专用主节点和 UltraWarm 节点。有关更多信息,请参阅在亚马逊 ES 中进行配置更改

相关统计数据:最高

SearchableDocuments

跨集群中所有数据节点的可搜索文档的总数。

相关统计数据:MMaxter、Maximum、Max大

DeletedDocuments

跨集群的所有数据节点已标记为删除的文档总数。这些文档不会再出现在搜索结果中,但 Elasticsearch 只会在分段合并期间从磁盘中移除已删除的文档。此指标在提出删除请求后会增加,在分段合并后会减少。

相关统计数据:MMaxter、Maximum、Max大

CPUUtilization

集群中数据节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有节点。此指标也可用于单独的节点。

相关统计数据:最大值,平均值

FreeStorageSpace

集群中的数据节点的可用空间。Sum显示集群的总可用空间,但您必须保留一分钟的时间来获取准确值。MinimumMaximum分别显示可用空间最小和可用空间最多的节点。此指标也可用于单独的节点。Amazon ES 抛出ClusterBlockException当该指标达到时0。要恢复,您必须删除索引,添加更大的实例,或向现有实例添加基于 EBS 的存储。要了解更多信息,请参阅“缺乏可用存储空间”。

亚马逊 ES 控制台以 GiB 为单位显示此值。亚 Amazon CloudWatch 控制台以 MiB 为单位显示它。

注意

FreeStorageSpace将始终低于弹性搜索_cluster/stats_cat/allocationAPI 提供。Amazon ES 在每个实例上为内部操作预留一个存储空间百分比。有关更多信息,请参阅 。计算存储需求

相关统计数据:Mi、Maxter、Sum

ClusterUsedSpace

集群的已使用空间总量。您必须保留一分钟的时间来获取准确值。

亚马逊 ES 控制台以 GiB 为单位显示此值。亚 Amazon CloudWatch 控制台以 MiB 为单位显示它。

相关统计数据:最小值,最大值

ClusterIndexWritesBlocked

指示您的集群是接受还是阻止传入的写入请求。值为 0 表示集群接受请求。值为 1 表示阻止请求。

一些常见因素包括:FreeStorageSpace太低或JVMMemoryPressure太高。为了缓解这一问题,可以考虑增加磁盘空间或扩展集群。

相关统计数据:最高

JVMMemoryPressure

用于集群中所有数据节点的 Java 堆的最大百分比。Amazon ES 将实例的 RAM 的一半用于 Java 堆,最大堆大小为 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。请参阅针对 Amazon Elasticsearch Service 的推荐 CloudWatch 警报

相关统计数据:最高

AutomatedSnapshotFailure

集群的失败的自动快照的数量。值 1 指示在过去的 36 个小时内未为域拍摄自动快照。

相关统计数据:最小值,最大值

CPUCreditBalance

集群中的数据节点可用的剩余 CPU 积分。一个 CPU 积分提供一个完整 CPU 核心在一分钟内的性能。有关更多信息,请参阅 。CPU 积分中的Amazon EC2 开发人员指南。此指标仅对 T2 实例类型有效。

相关统计数据:M 最低

KibanaHealthyNodes

Kibana 运行状况检查。如果最小值、最大值和平均值都等于 1,Kibana 表现正常。如果您有 10 个节点,最大值为 1,最小值为 0,平均值为 0.7,则意味着 7 个节点 (70%) 运行正常,3 个节点 (30%) 运行状况不佳。

相关统计数据:M MMaxter、Maximum、Max大

ESReportingFailedRequestSysErrCount

由于服务器问题或功能限制而失败的生成请求数。

相关统计数据:M 总计

ESReportingFailedRequestUserErrCount

由于客户端问题而失败的生成 Kibana 报告的请求数。

相关统计数据:M 总计

ESReportingRequestCount

生成 Kibana 报告的请求总数。

相关统计数据:M 总计

ESReportingSuccessCount

成功的生成 Kibana 报告请求数。

相关统计数据:M 总计

KMSKeyError

值 1 表示已禁用用于加密静态数据的 KMS 客户主密钥。要将域还原为正常操作,请重新启用该密钥。控制台仅对该加密静态数据的域显示此指标。

相关统计数据:M 最小值,最大值

KMSKeyInaccessible

值 1 表示已删除用于加密静态数据的 KMS 客户主密钥或已撤销其对 Amazon ES 的授权。您无法恢复处于此状态的域。但如果您具有手动快照,则可以使用它将该域的数据迁移到新域。控制台仅对该加密静态数据的域显示此指标。

相关统计数据:M 最小值,最大值

InvalidHostHeaderRequests

针对 Elasticsearch 集群的包含无效(或缺少)主机标头的 HTTP 请求数。有效请求包括域主机名作为主机标头值。Amazon ES 拒绝对没有限制性访问策略的公共访问域的无效请求。我们建议对所有域应用限制性访问策略。

如果您看到此指标的较大值,请确认您的 Elasticsearch 客户端在其请求中包含域主机名(例如,而不是其 IP 地址)。

相关统计数据:M 总计

ElasticsearchRequests

对 Elasticsearch 集群发出的请求数。

相关统计数据:M 总计

2xx, 3xx, 4xx, 5xx

导致指定的 HTTP 响应代码(2xx、3xx、4xx、5xx)的对域的请求数。

相关统计数据:M 总计

专用主节点指标

Amazon Elasticsearch Service 为您提供以下指标。专用主节点

指标 描述
MasterCPUUtilization

专用主节点使用的 CPU 资源的最大百分比。建议在此指标达到 60% 时增加实例类型的大小。

相关统计数据:M 平均值

MasterFreeStorageSpace

此指标不相关,可以被忽略。该服务不使用主节点作为数据节点。

MasterJVMMemoryPressure

用于集群中所有专用主节点的 Java 堆的最大百分比。建议在此指标达到 85% 时迁移到更大的实例类型。

相关统计数据:M 最高

MasterCPUCreditBalance

集群中专用主节点可用的剩余 CPU 积分。一个 CPU 积分提供一个完整 CPU 核心在一分钟内的性能。有关更多信息,请参阅 。CPU 积分中的Amazon EC2 开发人员指南。此指标仅对 T2 实例类型有效。

相关统计数据:M 最低

MasterReachableFromNode

MasterNotDiscovered 运行状况检查异常。值为 1 表示行为正常。值为 0 表示 /_cluster/health/ 失败。

失败意味着主节点已停止或无法访问。这通常是由网络连接问题或Amazon依赖问题。

相关统计数据:M 最低

MasterSysMemoryUtilization

使用中的主节点内存的百分比。

相关统计数据:M 最高

EBS 卷指标

Amazon Elasticsearch Service 为 EBS 卷提供以下指标。

指标 描述
ReadLatency

EBS 卷上读取操作的延迟(以秒为单位)。

相关统计数据:M MMaxter、Maximum、Max大

WriteLatency

EBS 卷上写入操作的延迟(以秒为单位)。

相关统计数据:M MMaxter、Maximum、Max大

ReadThroughput

EBS 卷上读取操作的吞吐量(以字节/秒为单位)。

相关统计数据:M MMaxter、Maximum、Max大

WriteThroughput

EBS 卷上写入操作的吞吐量(以字节/秒为单位)。

相关统计数据:M MMaxter、Maximum、Max大

DiskQueueDepth

针对 EBS 卷的待处理输入和输出 (I/O) 请求的数量。

相关统计数据:M MMaxter、Maximum、Max大

ReadIOPS

针对 EBS 卷上的读取操作的每秒输入和输出 (I/O) 操作数。

相关统计数据:M MMaxter、Maximum、Max大

WriteIOPS

针对 EBS 卷上的写入操作的每秒输入和输出 (I/O) 操作数。

相关统计数据:M MMaxter、Maximum、Max大

实例指标

Amazon Elasticsearch Service 为域中的每个实例提供以下指标。Amazon ES 还聚合这些实例指标以让您更好地了解总体集群运行状况。您可以使用验证此行为,抽样计数统计数据。请注意,下表中的每个指标对于节点 集群都有相关的统计数据。

重要

Elasticsearch 的不同版本使用不同的线程池来处理对_indexAPI。弹性搜索 1.5 和 2.3 使用索引线程池。弹性搜索 5.x、6.0 和 6.2 使用批量线程池。6.3 及更高版本使用写入线程池。当前,Amazon ES 控制台不包含批量线程池的图表。

使用GET _cluster/settings?include_defaults=true来检查集群的线程池和队列大小。

指标 描述
IndexingLatency

分片完成索引操作所需的平均时间,以毫秒为单位。

相关节点统计数据:M 平均值

相关集群统计数据 平均值,最大值

IndexingRate

每分钟的索引操作数。对 _bulk API 的单次调用,该 API 添加两个文档并将两个计数更新为四个操作,这可在一个或多个节点中扩散。如果该索引有一个或多个副本,集群中的其他节点也会记录总计四个索引编制操作。文档删除不计入此指标。

相关节点统计数据:M 平均值

相关集群统计数据 A、Maximum、Maximum、M

SearchLatency

数据节点上的分片完成搜索操作所需的平均时间,以毫秒为单位。

相关节点统计数据:M 平均值

相关集群统计数据 平均值,最大值

SearchRate

数据节点上所有分片的每分钟搜索请求总数。对 _search API 的单次调用可能会从许多不同的分片返回结果。如果这些分片中有 5 个位于一个节点上,则节点会为此指标报告 5 次,即使客户只发出一次请求也是如此。

相关节点统计数据:M 平均值

相关集群统计数据 A、Maximum、Maximum、M

SegmentCount

数据节点上的段数。您拥有的区段越多,每次搜索所花费的时间就越长。弹性搜索偶尔会将较小的段合并为较大的段。

相关节点统计数据 最大值,平均值

相关集群统计数据 Sum、Maxter、Maximum、A

SysMemoryUtilization

使用中的实例内存的百分比。此指标的值较高是正常的,通常不表示集群存在问题。有关潜在性能和稳定性问题的更好指示,请参阅 JVMMemoryPressure 指标。

相关节点统计数据 Maximum、Maximum、A

相关集群统计数据 Maximum、Maximum、A

JVMGCYoungCollectionCount

“年轻代”垃圾回收的运行次数。大量不断增长的运行数对于集群操作来说是正常的。

相关节点统计数据 最高

相关集群统计数据 Sum、Maxter、Maximum、A

JVMGCYoungCollectionTime

集群执行“年轻代”垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据 最高

相关集群统计数据 Sum、Maxter、Maximum、A

JVMGCOldCollectionCount

“年老代”垃圾回收的运行次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。

相关节点统计数据 最高

相关集群统计数据 Sum、Maxter、Maximum、A

JVMGCOldCollectionTime

集群执行“年老代”垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据 最高

相关集群统计数据 Sum、Maxter、Maximum、A

KibanaConcurrentConnections

与 Kibana 的活动并发连接数。如果此数字一直很大,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据 Sum、Maxter、Maximum、A

KibanaHealthyNode

Kibana 节点运行状况检查。值为 1 表示行为正常。值为 0 表示无法访问 Kibana。

相关节点统计数据 最低

相关集群统计数据 Maximum、Maximum、A

KibanaHeapTotal

在 MiB 中分配给 Kibana 的堆内存量。不同的 EC2 实例类型可能会影响确切的内存分配。

相关节点统计数据 最高

相关集群统计数据 Sum、Maxter、Maximum、A

KibanaHeapUsed

Kibana 在 MiB 中使用的堆内存的绝对数量。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

KibanaHeapUtilization

Kibana 使用的可用堆内存的最大百分比。如果此值超过 80%,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:Maximum、Maximum、A

KibanaOS1MinuteLoad

Kibana 的一分钟 CPU 负载平均值。理想情况下,CPU 负载应保持在 1.00 以下。虽然临时峰值很好,但如果此指标始终高于 1.00,我们建议增加实例类型的大小。

相关节点统计数据 平均值

相关集群统计数据:平均值,最大值

KibanaRequestTotal

向 Kibana 发出的 HTTP 请求的总计数。如果您的系统速度较慢,或者您看到大量 Kibana 请求,请考虑增加实例类型的大小。

相关节点统计数据 总计

相关集群统计数据:总计

KibanaResponseTimesMaxInMillis

Kibana 响应请求所需的最大时间量(以毫秒为单位)。如果请求始终花费很长时间才能返回结果,请考虑增加实例类型的大小。

相关节点统计数据 最高

相关集群统计数据:最大值,平均值

ThreadpoolForce_mergeQueue

强制合并线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

ThreadpoolForce_mergeRejected

强制合并线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:总计

ThreadpoolForce_mergeThreads

强制合并线程池的大小。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

ThreadpoolIndexQueue

索引线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。索引队列的最大大小为 200。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

ThreadpoolIndexRejected

索引线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:总计

ThreadpoolIndexThreads

索引线程池的大小。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

ThreadpoolSearchQueue

搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。搜索队列的最大大小为 1000。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

ThreadpoolSearchRejected

搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:总计

ThreadpoolSearchThreads

搜索线程池的大小。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

Threadpoolsql-workerQueue

SQL 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

Threadpoolsql-workerRejected

SQL 搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:总计

Threadpoolsql-workerThreads

SQL 搜索线程池的大小。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

ThreadpoolBulkQueue

批量线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

ThreadpoolBulkRejected

批量线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据 最高

相关集群统计数据:总计

ThreadpoolBulkThreads

批量线程池的大小。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

ThreadpoolWriteThreads

写入线程池的大小。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

ThreadpoolWriteQueue

写入线程池中的排队任务数。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

ThreadpoolWriteRejected

写入线程池中的已拒绝任务数。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

注意

由于 7.9 版中的默认写入队列大小从 200 增加到 10000,因此此此指标不再是亚马逊 ES 拒绝的唯一指标。使用CoordinatingWriteRejectedPrimaryWriteRejected, 和ReplicaWriteRejected量度来监视 7.9 及更高版本中的拒绝。

CoordinatingWriteRejected

自上次 Amazon ES 进程启动以来,由于索引压力而在协调节点上发生的拒绝总数。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

此指标在版本 7.9 及更高版本中可用。

PrimaryWriteRejected

自上次 Amazon ES 进程启动以来,由于索引压力而在主分片上发生的拒绝总数。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

此指标在版本 7.9 及更高版本中可用。

ReplicaWriteRejected

自上次 Amazon ES 进程启动以来,由于索引压力而在副本分片上发生的拒绝总数。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

此指标在版本 7.9 及更高版本中可用。

UltraWarm 指标

Amazon Elasticsearch Service 为您提供以下指标。UltraWarm节点。

指标 描述
WarmCPUUtilization

集群中 UltraWarm 节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有 UltraWarm 节点。此指标也可用于单独的 UltraWarm 节点。

相关统计数据:M 最大值,平均值

WarmFreeStorageSpace

以 MiB 为单位的可用温存储空间量。由于 UltraWarm 使用 Amazon S3 而不是连接的磁盘,因此Sum是唯一相关的统计数据。您必须保留一分钟的时间来获取准确值。

相关统计数据:M 总计

WarmSearchableDocuments

跨集群中所有温索引的可搜索文档的总数。您必须保留一分钟的时间来获取准确值。

相关统计数据:M 总计

WarmSearchLatency

UltraWarm 节点上的分片完成搜索操作所需的平均时间,以毫秒为单位。

相关节点统计数据 平均值

相关集群统计数据:平均值,最大值

WarmSearchRate

UltraWarm 节点上所有分片的每分钟搜索请求总数。对 _search API 的单次调用可能会从许多不同的分片返回结果。如果这些分片中有 5 个位于一个节点上,则节点会为此指标报告 5 次,即使客户只发出一次请求也是如此。

相关节点统计数据 平均值

相关集群统计数据:A、Maximum、Maximum、M

WarmStorageSpaceUtilization

集群使用的热存储空间总量(以 MiB 为单位)。

相关统计数据:M 最高

HotStorageSpaceUtilization

集群使用的热存储空间总量。

相关统计数据:M 最高

WarmSysMemoryUtilization

使用中的温节点内存的百分比。

相关统计数据:M 最高

HotToWarmMigrationQueueSize

当前正在等待从热存储迁移到温存储的索引数。

相关统计数据:M 最高

WarmToHotMigrationQueueSize

当前正在等待从温存储迁移到热存储的索引数。

相关统计数据:M 最高

HotToWarmMigrationFailureCount

从热迁移到热迁移失败的总数。

相关统计数据:M 总计

HotToWarmMigrationForceMergeLatency

迁移过程的强制合并阶段的平均延迟时间。如果这个阶段持续需要太长时间,请考虑增加index.ultrawarm.migration.force_merge.max_num_segments

相关统计数据:M 平均值

HotToWarmMigrationSnapshotLatency

迁移过程快照阶段的平均延迟时间。如果此阶段持续花费太长时间,请确保分片的大小适当,并在整个集群中分布。

相关统计数据:M 平均值

HotToWarmMigrationProcessingLatency

成功从热迁移到热迁移的平均延迟时间,包括在队列中消耗的时间。此值是完成迁移过程的强制合并、快照和分片重新定位阶段所需的时间总和。

相关统计数据:M 平均值

HotToWarmMigrationSuccessCount

成功从热迁移到热迁移的总数。

相关统计数据:M 总计

HotToWarmMigrationSuccessLatency

成功从热迁移到热迁移的平均延迟时间,包括在队列中花费的时间。

相关统计数据:M 平均值

WarmThreadpoolSearchThreads

UltraWarm 搜索线程池的大小。

相关节点统计数据 最高

相关集群统计数据:Average、Sum

WarmThreadpoolSearchRejected

UltraWarm 搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑添加更多 UltraWarm 节点。

相关节点统计数据 最高

相关集群统计数据:总计

WarmThreadpoolSearchQueue UltraWarm 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑添加更多 UltraWarm 节点。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

WarmJVMMemoryPressure

用于 UltraWarm 节点的 Java 堆的最大百分比。

相关统计数据:M 最高

WarmJVMGCYoungCollectionCount

“年轻代” 垃圾回收在 UltraWarm 节点上运行的次数。大量不断增长的运行数对于集群操作来说是正常的。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

WarmJVMGCYoungCollectionTime

集群在 UltraWarm 节点上执行 “年轻代” 垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

WarmJVMGCOldCollectionCount

“年老代” 垃圾回收在 UltraWarm 节点上运行的次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。

相关节点统计数据 最高

相关集群统计数据:Sum、Maxter、Maximum、A

冷存储指标

Amazon Elasticsearch Service 为您提供以下指标。冷存储

指标 描述
ColdStorageSpaceUtilization

集群使用的冷存储空间总量(以 MiB 为单位)。

相关统计数据:M Max

ColdToWarmMigrationFailureCount

从冷到热迁移失败的总数。

相关统计数据:M 总计

ColdToWarmMigrationLatency

成功完成冷到热迁移所需的时间量。

相关统计数据:M 平均值

ColdToWarmMigrationQueueSize

当前正在等待从冷存储迁移到温存储的索引数。

相关统计数据:M 最高

ColdToWarmMigrationSuccessCount

成功从冷到热迁移的总数。

相关统计数据:M 总计

WarmToColdMigrationFailureCount

从温到冷迁移失败的总数。

相关统计数据:M 总计

WarmToColdMigrationLatency

成功完成温到冷迁移所需的时间量。

相关统计数据:M 平均值

WarmToColdMigrationQueueSize

当前正在等待从温存储迁移到冷存储的索引数。

相关统计数据:M 最高

WarmToColdMigrationSuccessCount

成功从温到冷迁移的总数。

相关统计数据:M 总计

警报指标

Amazon Elasticsearch Service 为您提供以下指标。警报

指标 描述
AlertingDegraded

值为 1 表示警报索引为红色,或一个或多个节点未按计划运行。值为 0 表示行为正常。

相关统计数据:M 最高

AlertingIndexExists

值为 1 表示 .opendistro-alerting-config 索引存在。值为 0 表示该索引不存在。在您首次使用警报功能之前,此值将保持为 0。

相关统计数据:M 最高

AlertingIndexStatus.green

索引的运行状况。值为 1 表示绿色。值为 0 表示索引不存在或不是绿色。

相关统计数据:M 最高

AlertingIndexStatus.red

索引的运行状况。值为 1 表示红色。值为 0 表示索引不存在或不是红色。

相关统计数据:M 最高

AlertingIndexStatus.yellow

索引的运行状况。值为 1 表示黄色。值为 0 表示索引不存在或不是黄色。

相关统计数据:M 最高

AlertingNodesNotOnSchedule

值为 1 表示某些作业未按计划运行。值为 0 表示所有警报作业都按计划运行(或警报作业不存在)。检查亚马逊 ES 控制台或创建_nodes/stats请求,以查看是否有节点显示高资源使用率。

相关统计数据:M 最高

AlertingNodesOnSchedule

值为 1 表示所有警报作业都按计划运行(或警报作业不存在)。值为 0 表示某些作业未按计划运行。

相关统计数据:M 最高

AlertingScheduledJobEnabled

值为 1 表示 opendistro.scheduled_jobs.enabled 集群设置为 true。值为 0 表示该设置为 false,并且计划的作业已禁用。

相关统计数据:M 最高

异常检测指标

Amazon Elasticsearch Service 为您提供以下指标。异常检测

指标 描述
ADPluginUnhealthy

值为 1 表示异常检测插件无法正常工作,或者因为故障次数太多,或者因为它使用了一个红色的索引。值为 0 表示插件正按预期工作。

相关统计数据:M 最高

ADExecuteRequestCount

检测异常的请求数。

相关统计数据:M 总计

ADExecuteFailureCount

检测异常的失败请求数。

相关统计数据:M 总计

ADHCExecuteFailureCount

检测高基数检测器异常的失败请求数。

相关统计数据:M 总计

ADHCExecuteRequestCount

检测高基数检测器异常的请求数。

相关统计数据:M 总计

ADAnomalyResultsIndexStatusIndexExists

值为 1 表示 .opendistro-anomaly-results 别名指向的索引存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:M 最高

ADAnomalyResultsIndexStatus.red

值为 1 表示 .opendistro-anomaly-results 别名指向的索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:M 最高

ADAnomalyDetectorsIndexStatusIndexExists

值为 1 表示 .opendistro-anomaly-detectors 索引存在。值为 0 表示该索引不存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:M 最高

ADAnomalyDetectorsIndexStatus.red

值为 1 表示 .opendistro-anomaly-detectors 索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:M 最高

ADModelsCheckpointIndexStatusIndexExists

值为 1 表示 .opendistro-anomaly-checkpoints 索引存在。值为 0 表示该索引不存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:M 最高

ADModelsCheckpointIndexStatus.red

值为 1 表示 .opendistro-anomaly-checkpoints 索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:M 最高

Amazon Elasticsearch Service 为您提供以下指标。异步搜索

异步搜索协调器节点统计信息(每个协调器节点)

指标 描述
AsynchronousSearchSubmissionRate

过去 1 分钟内提交的异步搜索数。

AsynchronousSearchInitializedRate

在上 1 分钟内初始化的异步搜索数。

AsynchronousSearchRunningCurrent

当前正在运行的异步搜索数。

AsynchronousSearchCompletionRate

在上 1 分钟内成功完成的异步搜索数。

AsynchronousSearchFailureRate

在最后一分钟内完成和失败的异步搜索数。

AsynchronousSearchPersistRate

在上 1 分钟内保持的异步搜索数。

AsynchronousSearchPersistFailedRate

在最后一分钟内失败的异步搜索数。

AsynchronousSearchRejected

自节点启动时间以来拒绝的异步搜索总数。

AsynchronousSearchCancelled

自节点启动时间以来取消的异步搜索总数。

AsynchronousSearchMaxRunningTime

最后一分钟内节点上运行最长的异步搜索的持续时间。

异步搜索集群统计信息

指标 描述
AsynchronousSearchStoreHealth

最后一分钟内持久索引(红/非红色)中存储的运行状况。

AsynchronousSearchStoreSize

过去 1 分钟内所有分片上的系统索引大小。

AsynchronousSearchStoredResponseCount

系统索引中的存储响应数。

SQL 指标

Amazon Elasticsearch Service 为您提供以下指标。SQL 支持

指标 描述
SQLFailedRequestCountByCusErr

由于客户端问题而失败的对 _opendistro/_sql API 的请求数。例如,请求可能会因 IndexNotFoundException 返回 HTTP 状态代码 400。

相关统计数据:M 总计

SQLFailedRequestCountBySysErr

由于服务器问题或功能限制而失败的对 _opendistro/_sql API 的请求数。例如,请求可能会因 VerificationException 返回 HTTP 状态代码 503。

相关统计数据:M 总计

SQLRequestCount

_opendistro/_sql API 的请求数。

相关统计数据:M 总计

SQLDefaultCursorRequestCount

类似于 SQLRequestCount,但仅统计分页请求。

相关统计数据:M 总计

SQLUnhealthy

值为 1 表示 SQL 插件将返回 5二十响应代码或将无效查询 DSL 传递给弹性搜索。其他请求将继续成功。值为 0 表示最近未失败。如果您看到持续值为 1,请排查您的客户端对插件发出的请求的问题。

相关统计数据:M 最高

k-NN 指标

Amazon Elasticsearch Service 包括最近邻算法的以下指标 (k-NN)插件。

指标 描述
KNNCacheCapacityReached

每节点衡量是否已达到缓存容量。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 最高

KNNCircuitBreakerTriggered

每个群集指标,用于是否触发断路器。如果任何节点返回值 1KNNCacheCapacityReached,则此值也将返回 1。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 最高

KNNEvictionCount

由于内存限制或空闲时间而从高速缓存中逐出的图形数量的每节点度量。不计入由于索引删除而发生的显式驱逐。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 总计

KNNGraphIndexErrors

每节点指标,用于添加knn_vector字段添加到产生错误的图形。

相关统计数据:M 总计

KNNGraphIndexRequests

每节点指标,用于添加knn_vector字段添加到图形中。

相关统计数据:M 总计

KNNGraphMemoryUsage

当前高速缓存大小(内存中所有图形的总大小)的每节点度量(以千字节为单位)。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 平均值

KNNGraphQueryErrors

产生错误的图形查询数的每节点度量。

相关统计数据:M 总计

KNNGraphQueryRequests

图形查询数的每节点度量。

相关统计数据:M 总计

KNNHitCount

缓存命中次数的每节点衡量指标。当用户查询已加载到内存中的图形时,会发生缓存命中。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 总计

KNNLoadExceptionCount

尝试将图形加载到缓存时发生异常次数的每节点度量。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 总计

KNNLoadSuccessCount

每节点衡量指标,该插件将图形成功加载到缓存中的次数。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 总计

KNNMissCount

缓存未命中次数的每节点衡量指标。当用户查询尚未加载到内存中的图形时,会发生缓存未命中。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 总计

KNNQueryRequests

K-nn 插件收到的查询请求数的每节点度量。

相关统计数据:M 总计

KNNScriptCompilationErrors

每节点指标,用于脚本编译过程中的错误数。此统计数据仅与 K-NN 分数脚本搜索相关。

相关统计数据:M 总计

KNNScriptCompilations

每节点指标,用于编译 K-NN 脚本的次数。此值通常应为 1 或 0,但是如果包含已编译脚本的缓存已填充,K-nn 脚本可能会重新编译。此统计数据仅与 K-NN 分数脚本搜索相关。

相关统计数据:M 总计

KNNScriptQueryErrors

每节点衡量脚本查询过程中的错误数量。此统计数据仅与 K-NN 分数脚本搜索相关。

相关统计数据:M 总计

KNNScriptQueryRequests

脚本查询总数的每节点衡量指标。此统计数据仅与 K-NN 分数脚本搜索相关。

相关统计数据:M 总计

KNNTotalLoadTime

K-nn 将图形加载到缓存中所花费的时间(以纳秒为单位)。此指标仅与近似 K-NN 搜索相关。

相关统计数据:M 总计

Amazon Elasticsearch Service 为您提供以下指标。跨集群搜索

源域指标

指标 维度 描述
CrossClusterOutboundConnections

ConnectionId

连接的节点数。如果响应中包含一个或多个跳过的域,则可使用此指标跟踪任何运行状况不佳的连接。如果此数值降至 0,则连接运行状况不佳。

CrossClusterOutboundRequests

ConnectionId

发送到目标域的搜索请求数。用于检查跨集群搜索请求的负载是否使域不堪重负,将此指标的任何峰值与任何 JVM/CPU 峰值相关联。

目标域指标

指标 维度 描述
CrossClusterInboundRequests

ConnectionId

从源域接收的传入连接请求数。

如果意外丢失连接,可添加 CloudWatch 警报。有关创建警报的步骤,请参阅基于静态阈值创建 CloudWatch 警报

学习排名量度

Amazon Elasticsearch Service 为您提供以下指标。学习排名

指标 描述
LTRRequestTotalCount

排名请求的总计数。

LTRRequestErrorCount

不成功请求的总计数。

LTRStatus.red

跟踪运行插件所需的索引之一是否为红色。

LTRMemoryUsage

插件使用的总内存。

LTRFeatureMemoryUsageInBytes

学习排名功能字段使用的内存量(以字节为单位)。

LTRFeaturesetMemoryUsageInBytes

所有学习排名功能集使用的内存量(以字节为单位)。

LTRModelMemoryUsageInBytes

所有学习到排名模型使用的内存量(以字节为单位)。

管道处理语言度量

Amazon Elasticsearch Service 为您提供以下指标。管道处理

指标 描述
PPLFailedRequestCountByCusErr

由于客户端问题而失败的对 _opendistro/_ppl API 的请求数。例如,请求可能会因 IndexNotFoundException 返回 HTTP 状态代码 400。

PPLFailedRequestCountBySysErr

由于服务器问题或功能限制而失败的对 _opendistro/_ppl API 的请求数。例如,请求可能会因 VerificationException 返回 HTTP 状态代码 503。

PPLRequestCount

_opendistro/_ppl API 的请求数。