使用 Amazon CloudWatch 监控 OpenSearch 集群指标 - 亚马逊 OpenSearch 服务
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon CloudWatch 监控 OpenSearch 集群指标

Amazon OpenSearch Service 会将数据从您的域发布到 Amazon CloudWatch。CloudWatch 允许您按一组有序的时间序列数据(称为指标)来检索关于这些数据点的统计数据。OpenSearch Service 每隔 60 秒向 CloudWatch 发送大部分指标。如果您使用通用型 EBS 卷或磁性 EBS 卷,则 EBS 卷指标将仅每五分钟更新一次。有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南

OpenSearch Service 控制台将根据来自 CloudWatch 的原始数据显示一系列图表。根据您的需求,您可能更愿意查看 CloudWatch 中的集群数据,而不是控制台中的图表。该服务会将指标存档两周,然后再丢弃。这些指标均是免费提供的,但是 CloudWatch 仍会收取创建控制面板和警报的费用。有关更多信息,请参阅 Amazon CloudWatch 定价

OpenSearch Service 向 CloudWatch 发布以下指标:

查看 CloudWatch 中的指标

CloudWatch 指标的分组首先依据服务命名空间,然后依据每个命名空间内的各种维度组合。

使用 CloudWatch 控制台查看指标
  1. 访问 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 控制台。

  2. 在左侧导航窗格中,找到 Metrics(指标),然后选择 All metrics(所有指标)。选择 ES/OpenSearchService 命名空间。

  3. 选择维度以查看相应指标。单个节点的指标位于 ClientId, DomainName, NodeId 维度中。集群指标位于 Per-Domain, Per-Client Metrics 维度中。某些节点指标在集群级别进行聚合,因此包含在这两个维度中。分区指标位于 ClientId, DomainName, NodeId, ShardRole 维度中。

使用 Amazon CLI 查看指标列表

运行以下命令:

aws cloudwatch list-metrics --namespace "AWS/ES"

解释 OpenSearch Service 中的运行状况图表

要查看 OpenSearch Service 中的指标,请使用集群运行状况实例运行状况选项卡。Instance health(实例运行状况)选项卡使用框图让您大致了解每个 OpenSearch 节点的运行状况:

  • 每个彩色框显示指定时间段内节点的值范围。

  • 蓝框表示与其他节点一致的值。红框表示异常值。

  • 每个框中的白线显示节点的当前值。

  • 每个框两侧的“细线”显示该时间段内所有节点的最小值和最大值。

如果对您的域进行配置更改,则 Cluster health (集群运行状况)Instance health (实例运行状况) 选项卡中各个实例的列表的大小通常会在短时间内增长一倍,然后再恢复为正确数量。有关此行为的说明,请参阅在 Amazon OpenSearch 服务中进行配置更改

集群指标

Amazon OpenSearch Service 为集群提供以下指标。

指标 描述
ClusterStatus.green

值为 1 指示将所有索引分片分配给集群中的节点。

相关统计数据:Maximum

ClusterStatus.yellow 值为 1 指示将所有索引的主要分片分配给集群中的节点,但是至少有一个索引的分片副本不是如此。有关更多信息,请参阅黄色集群状态

相关统计数据:Maximum

ClusterStatus.red

值为 1 指示至少一个索引的主分片和副本分片未分配给集群中的节点。有关更多信息,请参阅红色集群状态

相关统计数据:Maximum

Shards.active

活动主分区和副本分区的总数。

相关统计数据:最大值、总计

Shards.unassigned

未分配给集群中节点的分区数。

相关统计数据:最大值、总计

Shards.delayedUnassigned

其节点分配因超时设置已延迟的分区数。

相关统计数据:最大值、总计

Shards.activePrimary

活动主分区数。

相关统计数据:最大值、总计

Shards.initializing

正在初始化的分区数。

相关统计数据:总计

Shards.relocating

正在重新定位的分区数。

相关统计数据:总计

Nodes

OpenSearch Service 集群中的节点数,包括专用主节点和 UltraWarm 节点。有关更多信息,请参阅在 Amazon OpenSearch 服务中进行配置更改

相关统计数据:Maximum

SearchableDocuments

跨集群中所有数据节点的可搜索文档的总数。

相关统计数据:最小值、最大值、平均值

DeletedDocuments

跨集群的所有数据节点已标记为删除的文档总数。这些文档不会再出现在搜索结果中,但 OpenSearch 只会在分段合并期间将已删除的文档从磁盘中移除。此指标在提出删除请求后会增加,在分段合并后会减少。

相关统计数据:最小值、最大值、平均值

CPUUtilization

集群中数据节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有节点。此指标也可用于单独的节点。

相关统计数据:Maximum、Average

FreeStorageSpace

集群中各数据节点的可用空间。Sum 显示集群的总可用空间,但您必须保留一分钟的时间来获取准确值。MinimumMaximum 分别显示具有最小和最大可用空间的节点。此指标也可用于单独的节点。当该指标达到 0 时,OpenSearch Service 会引发 ClusterBlockException。要恢复,您必须删除索引,添加更大的实例,或向现有实例添加基于 EBS 的存储。要了解更多信息,请参阅 缺少可用存储空间

OpenSearch Service 控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示此值。

注意

FreeStorageSpace 将始终低于 OpenSearch _cluster/stats_cat/allocation API 提供的值。OpenSearch Service 在每个实例上预留一定的存储空间百分比以执行内部操作。有关更多信息,请参阅计算存储要求

相关统计数据:Minimum、Maximum、Average、Sum

ClusterUsedSpace

集群的已使用空间总量。您必须保留一分钟的时间来获取准确值。

OpenSearch Service 控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示此值。

相关统计数据:Minimum、Maximum

ClusterIndexWritesBlocked

指示您的集群是接受还是阻止传入的写入请求。值为 0 表示集群接受请求。值为 1 表示阻止请求。

一些常见的因素包括:FreeStorageSpace 过低或 JVMMemoryPressure 过高。为了缓解这一问题,可以考虑增加磁盘空间或扩展集群。

相关统计数据:Maximum

JVMMemoryPressure

用于集群中所有数据节点的 Java 堆的最大百分比。OpenSearch Service 将实例的一半 RAM 用于 Java 堆,最大堆大小为 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。请参阅亚马逊 OpenSearch 服务的推荐 CloudWatch 警报

相关统计数据:Maximum

注意

在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释

OldGenJVMMemoryPressure

集群中所有数据节点上用于“上一代”的 Java 堆的最大百分比。此指标也在节点级别获取。

相关统计数据:Maximum

AutomatedSnapshotFailure

集群的失败的自动快照的数量。值 1 指示在过去的 36 个小时内未为域拍摄自动快照。

相关统计数据:Minimum、Maximum

CPUCreditBalance

集群中的数据节点可用的剩余 CPU 积分。一个 CPU 信用提供一个完整 CPU 核心性能一分钟。有关更多信息,请参阅 Amazon EC2 开发人员指南中的 CPU 组。此指标仅对 T2 实例类型有效。

相关统计数据:Minimum

OpenSearchDashboardsHealthyNodes

OpenSearch 控制面板的运行状况检查。如果最小值、最大值和平均值都等于 1,则控制面板运行正常。如果您有 10 个节点,最大值为 1,最小值为 0,平均值为 0.7,则意味着 7 个节点 (70%) 运行正常,3 个节点 (30%) 运行状况不佳。

相关统计数据:最小值、最大值、平均值

OpensearchDashboardsReportingFailedRequestSysErrCount

由于服务器问题或功能限制而生成失败的 OpenSearch 控制面板报告的请求数。

相关统计数据:总计

OpensearchDashboardsReportingFailedRequestUserErrCount

由于客户端问题而生成失败的 OpenSearch 控制面板报告的请求数。

相关统计数据:总计

OpensearchDashboardsReportingRequestCount

生成 OpenSearch 控制面板报告的请求总数。

相关统计数据:总计

OpensearchDashboardsReportingSuccessCount

生成 OpenSearch 控制面板报告的成功请求数。

相关统计数据:总计

KMSKeyError

值 1 表示已禁用用于加密静态数据的 Amazon KMS 密钥。要将域还原为正常操作,请重新启用该密钥。控制台仅对该加密静态数据的域显示此指标。

相关统计数据:Minimum、Maximum

KMSKeyInaccessible

值 1 表示已删除用于加密静态数据的 Amazon KMS 密钥或已撤销其对 OpenSearch Service 的授权。您无法恢复处于此状态的域。但如果您具有手动快照,则可以使用它将该域的数据迁移到新域。控制台仅对该加密静态数据的域显示此指标。

相关统计数据:Minimum、Maximum

InvalidHostHeaderRequests

针对 OpenSearch 集群的包含无效(或缺少)主机标头的 HTTP 请求数。有效请求包括作为主机标头值的域主机名。OpenSearch Service 拒绝对没有限制性访问策略的公共访问域进行无效请求。我们建议对所有域应用限制性访问策略。

如果您看到此指标的较大值,请确认您的 OpenSearch 客户端在其请求中包含域主机名(例如,而不是其 IP 地址)。

相关统计数据:总计

OpenSearchRequests(previously ElasticsearchRequests)

对 OpenSearch 集群发出的请求数。

相关统计数据:总计

2xx, 3xx, 4xx, 5xx

导致指定的 HTTP 响应代码(2xx、3xx、4xx、5xx)的对域的请求数。

相关统计数据:总计

ThroughputThrottle

指示磁盘是否受到节流。当 ReadThroughputMicroBurstingWriteThroughputMicroBursting 的总吞吐量高于最大吞吐量 MaxProvisionedThroughput 时,就会发生节流。MaxProvisionedThroughput 是实例吞吐量或预调配卷吞吐量的较低值。值为 1 表示磁盘受到节流。值为 0 表示行为正常。

有关实例吞吐量的更多信息,请参阅 Amazon EBS 优化的实例。有关卷吞吐量的信息,请参阅 Amazon EBS 卷类型

相关统计数据:Minimum、Maximum

专用主节点指标

Amazon OpenSearch Service 提供专用主节点的以下指标。

指标 描述
MasterCPUUtilization

专用主节点使用的 CPU 资源的最大百分比。建议在此指标达到 60% 时增加实例类型的大小。

相关统计数据:Maximum

MasterFreeStorageSpace

此指标不相关,可以被忽略。该服务不使用主节点作为数据节点。

MasterJVMMemoryPressure

用于集群中所有专用主节点的 Java 堆的最大百分比。建议在此指标达到 85% 时迁移到更大的实例类型。

相关统计数据:Maximum

注意

在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释

MasterOldGenJVMMemoryPressure

每个主节点上用于“上一代”的 Java 堆的最大百分比。

相关统计数据:Maximum

MasterCPUCreditBalance

集群中专用主节点可用的剩余 CPU 积分。一个 CPU 信用提供一个完整 CPU 核心性能一分钟。有关更多信息,请参阅 Amazon EC2 开发人员指南中的 CPU 组。此指标仅对 T2 实例类型有效。

相关统计数据:Minimum

MasterReachableFromNode

MasterNotDiscovered 运行状况检查异常。值为 1 表示行为正常。值为 0 表示 /_cluster/health/ 失败。

失败意味着无法从源节点访问主节点。这通常是由网络连接问题或 Amazon 依赖问题导致的。

相关统计数据:Maximum

MasterSysMemoryUtilization

使用中的主节点内存的百分比。

相关统计数据:Maximum

EBS 卷指标

Amazon OpenSearch Service 为 EBS 卷提供以下指标。

指标 描述
ReadLatency

EBS 卷上读取操作的延迟(以秒为单位)。此指标也可用于单独的节点。

相关统计数据:最小值、最大值、平均值

WriteLatency

EBS 卷上写入操作的延迟(以秒为单位)。此指标也可用于单独的节点。

相关统计数据:最小值、最大值、平均值

ReadThroughput

EBS 卷上读取操作的吞吐量(以字节/秒为单位)。此指标也可用于单独的节点。

相关统计数据:最小值、最大值、平均值

ReadThroughputMicroBursting

考虑微爆时,EBS 卷上读取操作的吞吐量(以每秒字节数为单位)。此指标也可用于单独的节点。当 EBS 卷在显著缩短的时间段(少于一分钟)内突破高 IOPS 或吞吐量时,就会发生微爆。

相关统计数据:最小值、最大值、平均值

WriteThroughput

EBS 卷上写入操作的吞吐量(以字节/秒为单位)。此指标也可用于单独的节点。

相关统计数据:最小值、最大值、平均值

WriteThroughputMicroBursting

考虑微爆时,针对 EBS 卷上写入操作的吞吐量(以每秒字节数为单位)。此指标也可用于单独的节点。当 EBS 卷在显著缩短的时间段(少于一分钟)内突破高 IOPS 或吞吐量时,就会发生微爆。

相关统计数据:最小值、最大值、平均值

DiskQueueDepth

针对 EBS 卷的待处理输入和输出 (I/O) 请求的数量。

相关统计数据:最小值、最大值、平均值

ReadIOPS

针对 EBS 卷上的读取操作的每秒输入和输出 (I/O) 操作数。此指标也可用于单独的节点。

相关统计数据:最小值、最大值、平均值

ReadIOPSMicroBursting

考虑到微爆时,针对 EBS 卷上的读取操作的每秒输入和输出 (I/O) 操作数。此指标也可用于单独的节点。当 EBS 卷在显著缩短的时间段(少于一分钟)内突破高 IOPS 或吞吐量时,就会发生微爆。

相关统计数据:最小值、最大值、平均值

WriteIOPS

针对 EBS 卷上的写入操作的每秒输入和输出 (I/O) 操作数。此指标也可用于单独的节点。

相关统计数据:最小值、最大值、平均值

WriteIOPSMicroBursting

考虑微爆时,针对 EBS 卷上的写入操作的每秒输入和输出 (I/O) 操作数。此指标也可用于单独的节点。当 EBS 卷在显著缩短的时间段(少于一分钟)内突破高 IOPS 或吞吐量时,就会发生微爆。

相关统计数据:最小值、最大值、平均值

BurstBalance

一个 EBS 卷的可爆发存储桶中剩余输入和输出(I/O)积分的百分比。值为 100 表示该卷积累的积分数量已达最大数量。如果此百分比低于 70%,请参阅 EBS 可爆发容量余额低。对于具有 gp3 卷类型的域以及具有卷大小超过 1000 GiB 的 gp2 卷的域,突增余额保持在 0。

相关统计数据:最小值、最大值、平均值

实例指标

Amazon OpenSearch Service 为域中的每个实例提供以下指标。OpenSearch Service 还聚合这些实例指标以便您了解总体集群运行状况。您可以使用控制台中的 Sample Count(样本数)统计数据验证此行为。请注意,下表中的每个指标对于节点 集群都有相关的统计数据。

重要

Elasticsearch 的不同版本使用不同的线程池来处理对 _index API 的调用。Elasticsearch 1.5 和 2.3 使用索引线程池。Elasticsearch 5.x、6.0 和 6.2 使用批量线程池。OpenSearch 和 Elasticsearch 6.3 及更高版本使用写入线程池。目前,OpenSearch Service 控制台不包含批量线程池的图形。

使用 GET _cluster/settings?include_defaults=true 来检查集群的线程池和队列大小。

指标 描述
IndexingLatency

节点中所有索引操作所用的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum

IndexingRate

每分钟的索引操作数。对 _bulk API 的单次调用,该 API 添加两个文档并将两个计数更新为四个操作,这可在一个或多个节点中扩散。如果该索引有一个或多个副本,集群中的其他节点也会记录总计四个索引编制操作。文档删除不计入此指标。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum、Sum

SearchLatency

节点中所有搜索的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum

SearchRate

数据节点上所有分片的每分钟搜索请求总数。对 _search API 的单次调用可能会从许多不同的分片返回结果。如果这些分片中有 5 个位于一个节点上,则节点会为此指标报告 5 次,即使客户只发出一次请求也是如此。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum、Sum

SegmentCount

数据节点上的分段数。您拥有的分段越多,每次搜索所花费的时间就越长。OpenSearch 偶尔会将较小的分段合并为较大的分段。

相关节点统计数据:最大值、平均值

相关集群统计数据:Sum、Maximum、Average

SysMemoryUtilization

使用中的实例内存的百分比。此指标的值较高是正常的,通常不表示集群存在问题。有关潜在性能和稳定性问题的更好指示,请参阅 JVMMemoryPressure 指标。

相关节点统计数据:Minimum、Maximum、Average

相关集群统计数据:Minimum、Maximum、Average

JVMGCYoungCollectionCount

“年轻代”垃圾回收的运行次数。大量不断增长的运行数对于集群操作来说是正常的。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

JVMGCYoungCollectionTime

集群执行“年轻代”垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

JVMGCOldCollectionCount

“年老代”垃圾回收的运行次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

JVMGCOldCollectionTime

集群执行“年老代”垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

OpenSearchDashboardsConcurrentConnections

OpenSearch 控制面板的活动并发连接数。如果此数字始终很高,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

OpenSearchDashboardsHealthyNode

单个 OpenSearch 控制面板节点的运行状况检查。值为 1 表示行为正常。值为 0 表示无法访问控制面板。

相关节点统计数据:最小值

相关集群统计数据:Minimum、Maximum、Average

OpenSearchDashboardsHeapTotal

分配给 MiB 中 OpenSearch 控制面板的堆内存量。不同的 EC2 实例类型可能会影响精确的内存分配。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

OpenSearchDashboardsHeapUsed

MiB 中 OpenSearch 控制面板使用的绝对堆内存数。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

OpenSearchDashboardsHeapUtilization

OpenSearch 控制面板使用的可用堆内存的最大百分比。如果此值超过 80%,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Minimum、Maximum、Average

OpenSearchDashboardsOS1MinuteLoad

OpenSearch 控制面板的一分钟 CPU 负载平均值。理想情况下,CPU 负载应保持在 1.00 以下。虽然临时峰值很好,但如果此指标始终高于 1.00,我们建议增加实例类型的大小。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum

OpenSearchDashboardsRequestTotal

向 OpenSearch 控制面板发出的 HTTP 请求的总计数。如果您的系统速度较慢,或者您看到大量的控制面板请求,请考虑增加实例类型的大小。

相关节点统计数据:总计

相关集群统计数据:Sum

OpenSearchDashboardsResponseTimesMaxInMillis

OpenSearch 控制面板响应请求的最大时间量(以毫秒为单位)。如果请求一直花费很长时间才能返回结果,请考虑增加实例类型的大小。

相关节点统计数据:Maximum

相关集群统计数据:最大值、平均值

SearchTaskCancelled

协调器节点取消的次数。

相关节点统计数据:总计

相关集群统计数据:Sum

SearchShardTaskCancelled

数据节点取消的次数。

相关节点统计数据:总计

相关集群统计数据:Sum

ThreadpoolForce_mergeQueue

强制合并线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

ThreadpoolForce_mergeRejected

强制合并线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

ThreadpoolForce_mergeThreads

强制合并线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolIndexQueue

索引线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。索引队列的最大大小为 200。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

ThreadpoolIndexRejected

索引线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

ThreadpoolIndexThreads

索引线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolSearchQueue

搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。搜索队列的最大大小为 1000。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

ThreadpoolSearchRejected

搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

ThreadpoolSearchThreads

搜索线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

Threadpoolsql-workerQueue

SQL 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

Threadpoolsql-workerRejected

SQL 搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

Threadpoolsql-workerThreads

SQL 搜索线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolBulkQueue

批量线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

ThreadpoolBulkRejected

批量线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

ThreadpoolBulkThreads

批量线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolWriteThreads

写入线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolWriteQueue

写入线程池中的排队任务数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolWriteRejected

写入线程池中的已拒绝任务数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

注意

由于版本 7.1 中的默认写入队列大小从 200 增加到 10000,因此此指标不再是从 OpenSearch Service 拒绝的唯一指示符。使用 CoordinatingWriteRejectedPrimaryWriteRejectedReplicaWriteRejected 指标来监控版本 7.1 及更高版本中的拒绝。

CoordinatingWriteRejected

自上次 OpenSearch Service 进程启动以来,由于索引压力而在协调节点上发生的拒绝总数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

此指标在版本 7.1 及更高版本中可用。

PrimaryWriteRejected

自上次 OpenSearch Service 进程启动以来,由于索引压力而在主分区上发生的拒绝总数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

此指标在版本 7.1 及更高版本中可用。

ReplicaWriteRejected

自上次 OpenSearch Service 进程启动以来,由于索引压力而在副本分区上发生的拒绝总数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

此指标在版本 7.1 及更高版本中可用。

UltraWarm 指标

Amazon OpenSearch Service 为 UltraWarm 节点提供以下指标。

指标 描述
WarmCPUUtilization

集群中 UltraWarm 节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有 UltraWarm 节点。此指标也可用于单独的 UltraWarm 节点。

相关统计数据:Maximum、Average

WarmFreeStorageSpace

以 MiB 为单位的可用温存储空间量。由于 UltraWarm 使用 Amazon S3 而不是附加的磁盘,因此 Sum 是唯一相关的统计数据。您必须保留一分钟的时间来获取准确值。

相关统计数据:总计

WarmSearchableDocuments

跨集群中所有温索引的可搜索文档总数。您必须保留一分钟的时间来获取准确值。

相关统计数据:总计

WarmSearchLatency

UltraWarm 中所有搜索的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum

WarmSearchRate

UltraWarm 节点上所有分片的每分钟搜索请求总数。对 _search API 的单次调用可能会从许多不同的分片返回结果。如果这些分片中有 5 个位于一个节点上,则节点会为此指标报告 5 次,即使客户只发出一次请求也是如此。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum、Sum

WarmStorageSpaceUtilization

集群使用的温存储空间总量。

相关统计数据:Maximum

HotStorageSpaceUtilization

集群使用的热存储空间总量。

相关统计数据:Maximum

WarmSysMemoryUtilization

使用中的温节点内存的百分比。

相关统计数据:Maximum

HotToWarmMigrationQueueSize

当前等待从热存储迁移到温存储的索引数。

相关统计数据:Maximum

WarmToHotMigrationQueueSize

当前等待从温存储迁移到热存储的索引数。

相关统计数据:Maximum

HotToWarmMigrationFailureCount

从热迁移到温迁移失败的总数。

相关统计数据:总计

HotToWarmMigrationForceMergeLatency

迁移过程的强制合并阶段的平均延迟时间。如果这个阶段始终需要太长时间,请考虑增加 index.ultrawarm.migration.force_merge.max_num_segments

相关统计数据:Average

HotToWarmMigrationSnapshotLatency

迁移过程快照阶段的平均延迟时间。如果此阶段始终花费太长时间,请确保分区的大小适当,并在整个集群中分布。

相关统计数据:Average

HotToWarmMigrationProcessingLatency

成功从热迁移到温迁移的平均延迟时间,包括队列中花费的时间。此值是完成迁移过程的强制合并、快照和分区重新定位阶段所需的时间总和。

相关统计数据:Average

HotToWarmMigrationSuccessCount

成功从热迁移到温迁移的总数。

相关统计数据:总计

HotToWarmMigrationSuccessLatency

成功从热迁移到温迁移的平均延迟时间,包括在队列中花费的时间。

相关统计数据:Average

WarmThreadpoolSearchThreads

UltraWarm 搜索线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

WarmThreadpoolSearchRejected

UltraWarm 搜索线程池中的已拒绝任务数。如果此数量持续增长,请考虑增加更多的 UltraWarm 节点。

相关节点统计数据:Maximum

相关集群统计数据:Sum

WarmThreadpoolSearchQueue UltraWarm 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑增加更多的 UltraWarm 节点。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

WarmJVMMemoryPressure

用于 UltraWarm 节点的 Java 堆的最大百分比。

相关统计数据:Maximum

注意

在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释

WarmOldGenJVMMemoryPressure

每个 UltraWarm 节点上用于“上一代”的 Java 堆的最大百分比。

相关统计数据:Maximum

WarmJVMGCYoungCollectionCount

“年轻代”垃圾回收在 UltraWarm 节点上的运行次数。大量不断增长的运行数对于集群操作来说是正常的。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

WarmJVMGCYoungCollectionTime

集群对 UltraWarm 节点执行“年轻代”垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

WarmJVMGCOldCollectionCount

“年老代”垃圾回收在 UltraWarm 节点上的运行次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

冷存储指标

Amazon OpenSearch Service 为冷存储提供以下指标。

指标 描述
ColdStorageSpaceUtilization

集群使用的冷存储空间总量,以 MiB 为单位。

相关统计数据:最大值

ColdToWarmMigrationFailureCount

从冷到温迁移失败的总数。

相关统计数据:总计

ColdToWarmMigrationLatency

成功完成冷到温迁移所需的时间量。

相关统计数据:Average

ColdToWarmMigrationQueueSize

当前等待从冷存储迁移到温存储的索引数。

相关统计数据:Maximum

ColdToWarmMigrationSuccessCount

成功从冷到温迁移的总数。

相关统计数据:总计

WarmToColdMigrationFailureCount

从温到冷迁移失败的总数。

相关统计数据:总计

WarmToColdMigrationLatency

成功完成温到冷迁移的时间量。

相关统计数据:Average

WarmToColdMigrationQueueSize

当前等待从温存储迁移到冷存储的索引数。

相关统计数据:Maximum

WarmToColdMigrationSuccessCount

成功从温到冷迁移的总数。

相关统计数据:总计

OR1 指标

Amazon OpenSearch Service 为 OR1 实例提供以下指标。

指标 描述
RemoteStorageUsedSpace

集群使用的 Amazon S3 空间总量(单位为 MiB)。

相关统计数据:总计

RemoteStorageWriteRejected

由于远程存储和复制压力而在主分片上被拒绝的请求总数。此项从上次 OpenSearch Service 进程启动时开始计算。

相关统计数据:总计

提醒指标

Amazon OpenSearch Service 为提醒提供以下指标。

指标 描述
AlertingDegraded

值为 1 表示警报索引为红色,或一个或多个节点未按计划运行。值为 0 表示行为正常。

相关统计数据:Maximum

AlertingIndexExists

值为 1 表示 .opensearch-alerting-config 索引存在。值为 0 表示该索引不存在。在您首次使用警报功能之前,此值将保持为 0。

相关统计数据:Maximum

AlertingIndexStatus.green

索引的运行状况。值为 1 表示绿色。值为 0 表示索引不存在或不是绿色。

相关统计数据:Maximum

AlertingIndexStatus.red

索引的运行状况。值为 1 表示红色。值为 0 表示索引不存在或不是红色。

相关统计数据:Maximum

AlertingIndexStatus.yellow

索引的运行状况。值为 1 表示黄色。值为 0 表示索引不存在或不是黄色。

相关统计数据:Maximum

AlertingNodesNotOnSchedule

值为 1 表示某些作业未按计划运行。值为 0 表示所有警报作业都按计划运行(或警报作业不存在)。检查 OpenSearch Service 控制台或发出 _nodes/stats 请求,以查看是否有节点显示高资源使用率。

相关统计数据:Maximum

AlertingNodesOnSchedule

值为 1 表示所有警报作业都按计划运行(或警报作业不存在)。值为 0 表示某些作业未按计划运行。

相关统计数据:Maximum

AlertingScheduledJobEnabled

值为 1 表示 opensearch.scheduled_jobs.enabled 集群设置为 true。值为 0 表示该设置为 false,并且计划的作业已禁用。

相关统计数据:Maximum

异常检测指标

Amazon OpenSearch Service 为异常检测提供以下指标。

指标 描述
ADPluginUnhealthy

值为 1 表示异常检测插件无法正常工作,或者因为故障次数太多,或者因为它使用了一个红色的索引。值为 0 表示插件正按预期工作。

相关统计数据:Maximum

ADExecuteRequestCount

检测异常的请求数。

相关统计数据:总计

ADExecuteFailureCount

检测异常的失败请求数。

相关统计数据:总计

ADHCExecuteFailureCount

检测高基数探测器异常的失败请求数。

相关统计数据:总计

ADHCExecuteRequestCount

检测高基数探测器异常的请求数。

相关统计数据:总计

ADAnomalyResultsIndexStatusIndexExists

值为 1 表示 .opensearch-anomaly-results 别名指向的索引存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADAnomalyResultsIndexStatus.red

值为 1 表示 .opensearch-anomaly-results 别名指向的索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADAnomalyDetectorsIndexStatusIndexExists

值为 1 表示 .opensearch-anomaly-detectors 索引存在。值为 0 表示该索引不存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADAnomalyDetectorsIndexStatus.red

值为 1 表示 .opensearch-anomaly-detectors 索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADModelsCheckpointIndexStatusIndexExists

值为 1 表示 .opensearch-anomaly-checkpoints 索引存在。值为 0 表示该索引不存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADModelsCheckpointIndexStatus.red

值为 1 表示 .opensearch-anomaly-checkpoints 索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

Amazon OpenSearch Service 为异步搜索提供以下指标。

异步搜索协调器节点统计数据(每个协调器节点)

指标 描述
AsynchronousSearchSubmissionRate

过去 1 分钟内提交的异步搜索数。

AsynchronousSearchInitializedRate

过去 1 分钟内初始化的异步搜索数。

AsynchronousSearchRunningCurrent

当前正在运行的异步搜索数。

AsynchronousSearchCompletionRate

过去 1 分钟内成功完成的异步搜索数。

AsynchronousSearchFailureRate

最后一分钟内完成和失败的异步搜索数。

AsynchronousSearchPersistRate

过去 1 分钟内持续存在的异步搜索数。

AsynchronousSearchPersistFailedRate

最后一分钟内失败的异步搜索数。

AsynchronousSearchRejected

自节点启动时间以来拒绝的异步搜索总数。

AsynchronousSearchCancelled

自节点启动时间以来取消的异步搜索总数。

AsynchronousSearchMaxRunningTime

最后一分钟内节点上运行时间最长的异步搜索的持续时间。

异步搜索集群统计数据

指标 描述
AsynchronousSearchStoreHealth

最后一分钟内持久索引(红色/非红色)中的存储运行状况。

AsynchronousSearchStoreSize

过去 1 分钟内跨所有分区的系统索引大小。

AsynchronousSearchStoredResponseCount

过去 1 分钟内系统索引中存储的响应数。

自动调整指标

Amazon OpenSearch Service 为自动调整提供以下指标。

指标 描述
AutoTuneChangesHistoryHeapSize

堆大小调整值的更改历史记录(以 MiB 为单位)。

AutoTuneChangesHistoryJVMYoungGenArgs

JVM YongGen 参数的更改历史记录。

AutoTuneFailed

用于指示自动调整更改失败的布尔值。

AutoTuneSucceeded

用于指示自动调整更改成功的布尔值。

AutoTuneValue 无中断更改的队列更改历史记录(计数)和缓存调整更改历史记录(以 MiB 为单位)。

带待机功能的多可用区指标

Amazon OpenSearch Service 为带待机功能的多可用区提供以下指标。

活动的可用区中数据节点的节点-级别指标

指标 描述
CPUUtilization 集群中数据节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有节点。此指标也可用于单独的节点。
FreeStorageSpace

集群中各数据节点的可用空间。Sum 显示集群的总可用空间,但您必须保留一分钟的时间来获取准确值。MinimumMaximum 分别显示具有最小和最大可用空间的节点。此指标也可用于单独的节点。当该指标达到 0 时,OpenSearch Service 会引发 ClusterBlockException。要恢复,您必须删除索引,添加更大的实例,或向现有实例添加基于 EBS 的存储。要了解更多信息,请参阅 缺少可用存储空间

OpenSearch Service 控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示此值。

JVMMemoryPressure 用于集群中所有数据节点的 Java 堆的最大百分比。OpenSearch Service 将实例的一半 RAM 用于 Java 堆,最大堆大小为 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。请参阅亚马逊 OpenSearch 服务的推荐 CloudWatch 警报
SysMemoryUtilization 使用中的实例内存的百分比。此指标的值较高是正常的,通常不表示集群存在问题。有关潜在性能和稳定性问题的更好指示,请参阅 JVMMemoryPressure 指标。
IndexingLatency

节点中所有索引操作所用的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。

IndexingRate 每分钟的索引操作数。
SearchLatency

节点中所有搜索的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。

SearchRate 数据节点上所有分片的每分钟搜索请求总数。
ThreadpoolSearchQueue 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。搜索队列的最大大小为 1000。
ThreadpoolWriteQueue 写入线程池中的排队任务数。
ThreadpoolSearchRejected

搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

ThreadpoolWriteRejected 写入线程池中的已拒绝任务数。

活动的可用区中集群-级别指标

指标 描述
DataNodes 活动分片和备用分片的总数。
DataNodesShards.active 活动主分区和副本分区的总数。
DataNodesShards.unassigned

未分配给集群中节点的分区数。

DataNodesShards.initializing 正在初始化的分区数。
DataNodesShards.relocating 正在重新定位的分区数。

可用区轮换指标

如果是 ActiveReads.Availability-Zone = 1,则该区处于活动状态。如果是 ActiveReads.Availability-Zone = 0,则该区处于待机状态。

时间点指标

Amazon OpenSearch Service 为时间点 (PIT) 搜索提供以下指标。

PIT 协调器节点统计数据(每个协调器节点)

指标 描述
CurrentPointInTime 节点中活动 PIT 搜索上下文的数量。
TotalPointInTime 自节点启动时间以来过期的 PIT 搜索上下文数量。
AvgPointInTimeAliveTime 自节点启动时间以来 PIT 搜索上下文保持活动状态的平均时间。
HasActivePointInTime 值为 1 表示自节点启动时间以来节点上活动的 PIT 上下文。值 0 表示没有。
HasUsedPointInTime 值为 1 表示自节点启动时间以来节点上过期的 PIT 上下文。值 0 表示没有。

SQL 指标

Amazon OpenSearch Service 为 SQL 支持提供以下指标。

指标 描述
SQLFailedRequestCountByCusErr

由于客户端问题而失败的对 _sql API 的请求数。例如,请求可能会因 IndexNotFoundException 返回 HTTP 状态代码 400。

相关统计数据:总计

SQLFailedRequestCountBySysErr

由于服务器问题或功能限制而失败的对 _sql API 的请求数。例如,请求可能会因 VerificationException 返回 HTTP 状态代码 503。

相关统计数据:总计

SQLRequestCount

_sql API 的请求数。

相关统计数据:总计

SQLDefaultCursorRequestCount

类似于 SQLRequestCount,但仅统计分页请求。

相关统计数据:总计

SQLUnhealthy

值为 1 表示 SQL 插件将返回 5xx 响应代码或将无效的查询 DSL 传递到 OpenSearch 来响应特定请求。其他请求将继续成功。值为 0 表示最近未失败。如果您看到持续值为 1,请排查您的客户端对插件发出的请求的问题。

相关统计数据:Maximum

k-NN 指标

Amazon OpenSearch Service 包括 k 最近邻 (k-NN) 插件的以下指标。

指标 描述
KNNCacheCapacityReached

每节点指标,用于是否已达到缓存容量。此指标仅与近似 k-NN 搜索相关。

相关统计数据:Maximum

KNNCircuitBreakerTriggered

每个集群指标,用于是否触发断路器。如果任何节点返回 KNNCacheCapacityReached 值为 1,则此值也将返回 1。此指标仅与近似 k-NN 搜索相关。

相关统计数据:Maximum

KNNEvictionCount

由于内存限制或空闲时间而从缓存中移出的图形数的每节点指标。不计入由于索引删除而发生的显式移出。此指标仅与近似 k-NN 搜索相关。

相关统计数据:总计

KNNGraphIndexErrors

每节点指标,用于将文档的 knn_vector 字段添加到产生错误的图形的请求数。

相关统计数据:总计

KNNGraphIndexRequests

每节点指标,用于将文档的 knn_vector 字段添加到图形的请求数。

相关统计数据:总计

KNNGraphMemoryUsage

当前缓存大小(内存中所有图形的总大小)的每节点指标(以千字节为单位)。此指标仅与近似 k-NN 搜索相关。

相关统计数据:Average

KNNGraphQueryErrors

产生错误的图形查询数的每节点指标。

相关统计数据:总计

KNNGraphQueryRequests

图形查询次数的每节点指标。

相关统计数据:总计

KNNHitCount

缓存命中次数的每节点指标。当用户查询已加载到内存中的图形时,会发生缓存命中。此指标仅与近似 k-NN 搜索相关。

相关统计数据:总计

KNNLoadExceptionCount

尝试将图形加载到缓存时发生异常次数的每节点指标。此指标仅与近似 k-NN 搜索相关。

相关统计数据:总计

KNNLoadSuccessCount

每节点指标,用于插件将图形成功加载到缓存中的次数。此指标仅与近似 k-NN 搜索相关。

相关统计数据:总计

KNNMissCount

缓存未命中次数的每节点指标。当用户查询尚未加载到内存中的图形时,会发生缓存未命中。此指标仅与近似 k-NN 搜索相关。

相关统计数据:总计

KNNQueryRequests

k-NN 插件收到的查询请求数的每节点指标。

相关统计数据:总计

KNNScriptCompilationErrors

每节点指标,用于脚本编译过程中的错误数。此统计数据仅与 k-NN 分数脚本搜索相关。

相关统计数据:总计

KNNScriptCompilations

每节点指标,用于编译 k-NN 脚本的次数。此值通常应为 1 或 0,但是如果包含已编译脚本的缓存已填充,k-NN 脚本可能会重新编译。此统计数据仅与 k-NN 分数脚本搜索相关。

相关统计数据:总计

KNNScriptQueryErrors

脚本查询过程中错误数的每节点指标。此统计数据仅与 k-NN 分数脚本搜索相关。

相关统计数据:总计

KNNScriptQueryRequests

脚本查询总数的每节点指标。此统计数据仅与 k-NN 分数脚本搜索相关。

相关统计数据:总计

KNNTotalLoadTime

k-NN 将图形加载到缓存中所花费的时间(以纳秒为单位)。此指标仅与近似 k-NN 搜索相关。

相关统计数据:总计

Amazon OpenSearch Service 为跨集群搜索提供以下指标。

源域指标

指标 维度 描述
CrossClusterOutboundConnections

ConnectionId

连接的节点数。如果响应中包含一个或多个跳过的域,则可使用此指标跟踪任何运行状况不佳的连接。如果此数值降至 0,则连接运行状况不佳。

CrossClusterOutboundRequests

ConnectionId

发送到目标域的搜索请求数。用于检查跨集群搜索请求的负载是否使域不堪重负,将此指标的任何峰值与任何 JVM/CPU 峰值相关联。

目标域指标

指标 维度 描述
CrossClusterInboundRequests

ConnectionId

从源域接收的传入连接请求数。

如果意外丢失连接,可添加 CloudWatch 警报。有关创建警报的步骤,请参阅基于静态阈值创建 CloudWatch 警报

跨集群复制指标

Amazon OpenSearch Service 为跨集群复制提供以下指标。

指标 描述
ReplicationRate

每秒复制操作的平均速率。该指标与 IndexingRate 指标类似。

LeaderCheckPoint

对于某个特定连接,涵盖所有复制索引的领导者索引检查点值的和。您可以使用此指标来度量复制延迟。

FollowerCheckPoint

对于某个特定连接,涵盖所有复制索引的跟随者索引检查点值的和。您可以使用此指标来度量复制延迟。

ReplicationNumSyncingIndices

复制状态为 SYNCING 的索引数。

ReplicationNumBootstrappingIndices

复制状态为 BOOTSTRAPPING 的索引数。

ReplicationNumPausedIndices

复制状态为 PAUSED 的索引数。

ReplicationNumFailedIndices

复制状态为 FAILED 的索引数。

CrossClusterOutboundReplicationRequests

关注者域上的复制传输请求数。传输请求是内部请求,每次调用复制 API 操作时都会发生。当关注者域轮询领导者域的变更时,也会发生这些请求。

CrossClusterInboundReplicationRequests

领导者域上的复制传输请求数。传输请求是内部请求,每次调用复制 API 操作时都会发生。

AutoFollowNumSuccessStartReplication

特定连接的复制规则已成功创建的跟随者索引的数量。

AutoFollowNumFailedStartReplication

存在匹配模式时,复制规则未能创建的跟随者索引的数量。出现此问题的原因可能是远程集群上的网络问题或安全问题(即关联的角色不具有启动复制的权限)。

AutoFollowLeaderCallFailure

从跟随者索引到领导者索引的提取新数据的查询是否有任何失败。值为 1 表示在最近一分钟内有 1 个或更多失败的调用。

学习排名指标

Amazon OpenSearch Service 为学习排名提供以下指标。

指标 描述
LTRRequestTotalCount

排名请求的总计数。

LTRRequestErrorCount

不成功请求的总计数。

LTRStatus.red

跟踪运行插件所需的索引之一是否为红色。

LTRMemoryUsage

插件使用的总内存。

LTRFeatureMemoryUsageInBytes

学习排名功能字段使用的内存量(以字节为单位)。

LTRFeaturesetMemoryUsageInBytes

所有学习排名功能集使用的内存量(以字节为单位)。

LTRModelMemoryUsageInBytes

所有学习排名模型使用的内存量(以字节为单位)。

管道处理语言指标

Amazon OpenSearch Service 为管道处理语言提供以下指标。

指标 描述
PPLFailedRequestCountByCusErr

由于客户端问题而失败的对 _ppl API 的请求数。例如,请求可能会因 IndexNotFoundException 返回 HTTP 状态代码 400。

PPLFailedRequestCountBySysErr

由于服务器问题或功能限制而失败的对 _ppl API 的请求数。例如,请求可能会因 VerificationException 返回 HTTP 状态代码 503。

PPLRequestCount

_ppl API 的请求数。