使用 Amazon CloudWatch 监控 OpenSearch 集群指标 - Amazon Opensearch Service
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

使用 Amazon CloudWatch 监控 OpenSearch 集群指标

Amazon OpenSearch Service 会将数据从您的域发布到 Amazon CloudWatch。CloudWatch 允许您按一组有序的时间序列数据(称为指标)来检索关于这些数据点的统计数据。OpenSearch Service 每隔 60 秒向 CloudWatch 发送指标。如果您使用通用型 EBS 卷或磁性 EBS 卷,则 EBS 卷指标将仅每五分钟更新一次。有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南

OpenSearch Service 控制台将根据来自 CloudWatch 的原始数据显示一系列图表。根据您的需求,您可能更愿意查看 CloudWatch 中的集群数据,而不是控制台中的图表。该服务会将指标存档两周,然后再丢弃。这些指标均是免费提供的,但是 CloudWatch 仍会收取创建控制面板和警报的费用。有关更多信息,请参阅 Amazon CloudWatch 定价

OpenSearch Service 向 CloudWatch 发布以下指标:

查看 CloudWatch 中的指标

CloudWatch 指标的分组首先依据服务命名空间,然后依据每个命名空间内的各种维度组合。

使用 CloudWatch 控制台查看指标

  1. 通过以下网址打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch/

  2. 在导航窗格中,选择所有指标,然后选择 Amazon/ES 命名空间。

  3. 选择维度以查看相应指标。单个节点的指标位于 ClientId, DomainName, NodeId 维度中。集群指标位于 Per-Domain, Per-Client Metrics 维度中。某些节点指标在集群级别进行聚合,因此包含在这两个维度中。分区指标位于 ClientId, DomainName, NodeId, ShardRole 维度中。

使用 Amazon CLI 查看指标列表

运行以下命令:

aws cloudwatch list-metrics --namespace "Amazon/ES"

解释 OpenSearch Service 中的运行状况图表

要查看 OpenSearch Service 中的指标,请使用集群运行状况实例运行状况选项卡。Instance health(实例运行状况)选项卡使用框图让您大致了解每个 OpenSearch 节点的运行状况:

  • 每个彩色框显示指定时间段内节点的值范围。

  • 蓝框表示与其他节点一致的值。红框表示异常值。

  • 每个框中的白线显示节点的当前值。

  • 每个框两侧的“细线”显示该时间段内所有节点的最小值和最大值。

如果对您的域进行配置更改,则 Cluster health (集群运行状况)Instance health (实例运行状况) 选项卡中各个实例的列表的大小通常会在短时间内增长一倍,然后再恢复为正确数量。有关此行为的说明,请参阅在 Amazon OpenSearch Service 中进行配置更改

集群指标

Amazon OpenSearch Service 为集群提供以下指标。

指标 描述
ClusterStatus.green

值为 1 指示将所有索引分片分配给集群中的节点。

相关统计数据:Maximum

ClusterStatus.yellow 值为 1 指示将所有索引的主要分片分配给集群中的节点,但是至少有一个索引的分片副本不是如此。有关更多信息,请参阅 黄色集群状态

相关统计数据:Maximum

ClusterStatus.red

值为 1 指示至少一个索引的主分片和副本分片未分配给集群中的节点。有关更多信息,请参阅 红色集群状态

相关统计数据:Maximum

Shards.active

活动主分区和副本分区的总数。

相关统计数据:最大值、总计

Shards.unassigned

未分配给集群中节点的分区数。

相关统计数据:最大值、总计

Shards.delayedUnassigned

其节点分配因超时设置已延迟的分区数。

相关统计数据:最大值、总计

Shards.activePrimary

活动主分区数。

相关统计数据:最大值、总计

Shards.initializing

正在初始化的分区数。

相关统计数据:汇总

Shards.relocating

正在重新定位的分区数。

相关统计数据:汇总

Nodes

OpenSearch Service 集群中的节点数,包括专用主节点和 UltraWarm 节点。有关更多信息,请参阅 在 Amazon OpenSearch Service 中进行配置更改

相关统计数据:Maximum

SearchableDocuments

跨集群中所有数据节点的可搜索文档的总数。

相关统计数据:Minimum、Maximum、Average

DeletedDocuments

跨集群的所有数据节点已标记为删除的文档总数。这些文档不会再出现在搜索结果中,但 OpenSearch 只会在分段合并期间将已删除的文档从磁盘中移除。此指标在提出删除请求后会增加,在分段合并后会减少。

相关统计数据:Minimum、Maximum、Average

CPUUtilization

集群中数据节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有节点。此指标也可用于单独的节点。

相关统计数据:Maximum、Average

FreeStorageSpace

集群中各数据节点的可用空间。Sum 显示集群的总可用空间,但您必须保留一分钟的时间来获取准确值。MinimumMaximum 分别显示具有最小和最大可用空间的节点。此指标也可用于单独的节点。当该指标达到 0 时,OpenSearch Service 会引发 ClusterBlockException。要恢复,您必须删除索引,添加更大的实例,或向现有实例添加基于 EBS 的存储。要了解更多信息,请参阅“缺少可用存储空间”。

OpenSearch Service 控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示此值。

注意

FreeStorageSpace 将始终低于 OpenSearch _cluster/stats_cat/allocation API 提供的值。OpenSearch Service 在每个实例上预留一定的存储空间百分比以执行内部操作。有关更多信息,请参阅计算存储要求

相关统计数据:Minimum、Maximum、Average、Sum

ClusterUsedSpace

集群的已使用空间总量。您必须保留一分钟的时间来获取准确值。

OpenSearch Service 控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示此值。

相关统计数据:Minimum、Maximum

ClusterIndexWritesBlocked

指示您的集群是接受还是阻止传入的写入请求。值为 0 表示集群接受请求。值为 1 表示阻止请求。

一些常见的因素包括:FreeStorageSpace 过低或 JVMMemoryPressure 过高。为了缓解这一问题,可以考虑增加磁盘空间或扩展集群。

相关统计数据:Maximum

JVMMemoryPressure

用于集群中所有数据节点的 Java 堆的最大百分比。OpenSearch Service 将实例的一半 RAM 用于 Java 堆,最大堆大小为 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。请参阅 为 Amazon OpenSearch Service 推荐的 CloudWatch 警报

相关统计数据:Maximum

AutomatedSnapshotFailure

集群的失败的自动快照的数量。值 1 指示在过去的 36 个小时内未为域拍摄自动快照。

相关统计数据:Minimum、Maximum

CPUCreditBalance

集群中的数据节点可用的剩余 CPU 积分。一个 CPU 信用提供一个完整 CPU 核心性能一分钟。有关更多信息,请参阅 Amazon EC2 开发人员指南中的 CPU 组。此指标仅对 T2 实例类型有效。

相关统计数据:Minimum

OpenSearchDashboardsHealthyNodes(以前称之为 KibanaHealthyNodes

OpenSearch 控制面板的运行状况检查。如果最小值、最大值和平均值都等于 1,则控制面板运行正常。如果您有 10 个节点,最大值为 1,最小值为 0,平均值为 0.7,则意味着 7 个节点 (70%) 运行正常,3 个节点 (30%) 运行状况不佳。

相关统计数据:Minimum、Maximum、Average

KibanaReportingFailedRequestSysErrCount

由于服务器问题或功能限制而生成失败的 OpenSearch 控制面板报告的请求数。

相关统计数据:汇总

KibanaReportingFailedRequestUserErrCount

由于客户端问题而生成失败的 OpenSearch 控制面板报告的请求数。

相关统计数据:汇总

KibanaReportingRequestCount

生成 OpenSearch 控制面板报告的请求总数。

相关统计数据:汇总

KibanaReportingSuccessCount

生成 OpenSearch 控制面板报告的成功请求数。

相关统计数据:汇总

KMSKeyError

值 1 表示已禁用用于加密静态数据的 Amazon KMS 密钥。要将域还原为正常操作,请重新启用该密钥。控制台仅对该加密静态数据的域显示此指标。

相关统计数据:Minimum、Maximum

KMSKeyInaccessible

值 1 表示已删除用于加密静态数据的 Amazon KMS 密钥或已撤销其对 OpenSearch Service 的授权。您无法恢复处于此状态的域。但如果您具有手动快照,则可以使用它将该域的数据迁移到新域。控制台仅对该加密静态数据的域显示此指标。

相关统计数据:Minimum、Maximum

InvalidHostHeaderRequests

针对 OpenSearch 集群的包含无效(或缺少)主机标头的 HTTP 请求数。有效请求包括作为主机标头值的域主机名。OpenSearch Service 拒绝对没有限制性访问策略的公共访问域进行无效请求。我们建议对所有域应用限制性访问策略。

如果您看到此指标的较大值,请确认您的 OpenSearch 客户端在其请求中包含域主机名(例如,而不是其 IP 地址)。

相关统计数据:汇总

OpenSearchRequests

对 OpenSearch 集群发出的请求数。

相关统计数据:汇总

2xx, 3xx, 4xx, 5xx

导致指定的 HTTP 响应代码(2xx、3xx、4xx、5xx)的对域的请求数。

相关统计数据:汇总

专用主节点指标

Amazon OpenSearch Service 提供专用主节点的以下指标。

指标 描述
MasterCPUUtilization

专用主节点使用的 CPU 资源的最大百分比。建议在此指标达到 60% 时增加实例类型的大小。

相关统计数据:Maximum

MasterFreeStorageSpace

此指标不相关,可以被忽略。该服务不使用主节点作为数据节点。

MasterJVMMemoryPressure

用于集群中所有专用主节点的 Java 堆的最大百分比。建议在此指标达到 85% 时迁移到更大的实例类型。

相关统计数据:Maximum

MasterCPUCreditBalance

集群中专用主节点可用的剩余 CPU 积分。一个 CPU 信用提供一个完整 CPU 核心性能一分钟。有关更多信息,请参阅 Amazon EC2 开发人员指南中的 CPU 组。此指标仅对 T2 实例类型有效。

相关统计数据:Minimum

MasterReachableFromNode

MasterNotDiscovered 运行状况检查异常。值为 1 表示行为正常。值为 0 表示 /_cluster/health/ 失败。

失败意味着主节点已停止或无法访问。这通常是由网络连接问题或 Amazon 依赖问题导致的。

相关统计数据:Minimum

MasterSysMemoryUtilization

使用中的主节点内存的百分比。

相关统计数据:Maximum

EBS 卷指标

Amazon OpenSearch Service 为 EBS 卷提供以下指标。

指标 描述
ReadLatency

EBS 卷上读取操作的延迟(以秒为单位)。

相关统计数据:Minimum、Maximum、Average

WriteLatency

EBS 卷上写入操作的延迟(以秒为单位)。

相关统计数据:Minimum、Maximum、Average

ReadThroughput

EBS 卷上读取操作的吞吐量(以字节/秒为单位)。

相关统计数据:Minimum、Maximum、Average

WriteThroughput

EBS 卷上写入操作的吞吐量(以字节/秒为单位)。

相关统计数据:Minimum、Maximum、Average

DiskQueueDepth

针对 EBS 卷的待处理输入和输出 (I/O) 请求的数量。

相关统计数据:Minimum、Maximum、Average

ReadIOPS

针对 EBS 卷上的读取操作的每秒输入和输出 (I/O) 操作数。

相关统计数据:Minimum、Maximum、Average

WriteIOPS

针对 EBS 卷上的写入操作的每秒输入和输出 (I/O) 操作数。

相关统计数据:Minimum、Maximum、Average

实例指标

Amazon OpenSearch Service 为域中的每个实例提供以下指标。OpenSearch Service 还聚合这些实例指标以便您了解总体集群运行状况。您可以使用控制台中的 Sample Count(样本数)统计数据验证此行为。请注意,下表中的每个指标对于节点 集群都有相关的统计数据。

重要

Elasticsearch 的不同版本使用不同的线程池来处理对 _index API 的调用。Elasticsearch 1.5 和 2.3 使用索引线程池。Elasticsearch 5.x、6.0 和 6.2 使用批量线程池。OpenSearch 和 Elasticsearch 6.3 及更高版本使用写入线程池。目前,OpenSearch Service 控制台不包含批量线程池的图形。

使用 GET _cluster/settings?include_defaults=true 来检查集群的线程池和队列大小。

指标 描述
IndexingLatency

分片完成索引操作所需的平均时间,以毫秒为单位。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum

IndexingRate

每分钟的索引操作数。对 _bulk API 的单次调用,该 API 添加两个文档并将两个计数更新为四个操作,这可在一个或多个节点中扩散。如果该索引有一个或多个副本,集群中的其他节点也会记录总计四个索引编制操作。文档删除不计入此指标。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum、Sum

SearchLatency

数据节点上的分片完成搜索操作所需的平均时间,以毫秒为单位。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum

SearchRate

数据节点上所有分片的每分钟搜索请求总数。对 _search API 的单次调用可能会从许多不同的分片返回结果。如果这些分片中有 5 个位于一个节点上,则节点会为此指标报告 5 次,即使客户只发出一次请求也是如此。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum、Sum

SegmentCount

数据节点上的分段数。您拥有的分段越多,每次搜索所花费的时间就越长。OpenSearch 偶尔会将较小的分段合并为较大的分段。

相关节点统计数据:最大值、平均值

相关集群统计数据:Sum、Maximum、Average

SysMemoryUtilization

使用中的实例内存的百分比。此指标的值较高是正常的,通常不表示集群存在问题。有关潜在性能和稳定性问题的更好指示,请参阅 JVMMemoryPressure 指标。

相关节点统计数据:Minimum、Maximum、Average

相关集群统计数据:Minimum、Maximum、Average

JVMGCYoungCollectionCount

“年轻代”垃圾回收的运行次数。大量不断增长的运行数对于集群操作来说是正常的。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

JVMGCYoungCollectionTime

集群执行“年轻代”垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

JVMGCOldCollectionCount

“年老代”垃圾回收的运行次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

JVMGCOldCollectionTime

集群执行“年老代”垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

OpenSearchDashboardsConcurrentConnections(以前称之为 KibanaConcurrentConnections)

OpenSearch 控制面板的活动并发连接数。如果此数字始终很高,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

OpenSearchDashboardsHealthyNode(以前称之为 KibanaHealthyNode)

单个 OpenSearch 控制面板节点的运行状况检查。值为 1 表示行为正常。值为 0 表示无法访问控制面板。

相关节点统计数据:最小值

相关集群统计数据:Minimum、Maximum、Average

OpenSearchDashboardsHeapTotal(以前称之为 KibanaHeapTotal)

分配给 MiB 中 OpenSearch 控制面板的堆内存量。不同的 EC2 实例类型可能会影响精确的内存分配。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

OpenSearchDashboardsHeapUsed(以前称之为 KibanaHeapUsed)

MiB 中 OpenSearch 控制面板使用的绝对堆内存数。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

OpenSearchDashboardsHeapUtilization(以前称之为 KibanaHeapUtilization)

OpenSearch 控制面板使用的可用堆内存的最大百分比。如果此值超过 80%,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Minimum、Maximum、Average

OpenSearchDashboardsOS1MinuteLoad(以前称之为 KibanaOS1MinuteLoad)

OpenSearch 控制面板的一分钟 CPU 负载平均值。理想情况下,CPU 负载应保持在 1.00 以下。虽然临时峰值很好,但如果此指标始终高于 1.00,我们建议增加实例类型的大小。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum

OpenSearchDashboardsRequestTotal(以前称之为 KibanaRequestTotal)

向 OpenSearch 控制面板发出的 HTTP 请求的总计数。如果您的系统速度较慢,或者您看到大量的控制面板请求,请考虑增加实例类型的大小。

相关节点统计数据:总计

相关集群统计数据:Sum

OpenSearchDashboardsResponseTimesMaxInMillis(以前称之为 KibanaResponseTimesMaxInMillis)

OpenSearch 控制面板响应请求的最大时间量(以毫秒为单位)。如果请求一直花费很长时间才能返回结果,请考虑增加实例类型的大小。

相关节点统计数据:Maximum

相关集群统计数据:最大值、平均值

ThreadpoolForce_mergeQueue

强制合并线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

ThreadpoolForce_mergeRejected

强制合并线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

ThreadpoolForce_mergeThreads

强制合并线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolIndexQueue

索引线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。索引队列的最大大小为 200。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

ThreadpoolIndexRejected

索引线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

ThreadpoolIndexThreads

索引线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolSearchQueue

搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。搜索队列的最大大小为 1000。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

ThreadpoolSearchRejected

搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

ThreadpoolSearchThreads

搜索线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

Threadpoolsql-workerQueue

SQL 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

Threadpoolsql-workerRejected

SQL 搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

Threadpoolsql-workerThreads

SQL 搜索线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolBulkQueue

批量线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

ThreadpoolBulkRejected

批量线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。

相关节点统计数据:Maximum

相关集群统计数据:Sum

ThreadpoolBulkThreads

批量线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolWriteThreads

写入线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolWriteQueue

写入线程池中的排队任务数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

ThreadpoolWriteRejected

写入线程池中的已拒绝任务数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

注意

由于版本 7.9 中的默认写入队列大小从 200 增加到 10000,因此此指标不再是从 OpenSearch Service 拒绝的唯一指示符。使用 CoordinatingWriteRejectedPrimaryWriteRejectedReplicaWriteRejected 指标来监控版本 7.9 及更高版本中的拒绝。

CoordinatingWriteRejected

自上次 OpenSearch Service 进程启动以来,由于索引压力而在协调节点上发生的拒绝总数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

此指标在版本 7.9 及更高版本中可用。

PrimaryWriteRejected

自上次 OpenSearch Service 进程启动以来,由于索引压力而在主分区上发生的拒绝总数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

此指标在版本 7.9 及更高版本中可用。

ReplicaWriteRejected

自上次 OpenSearch Service 进程启动以来,由于索引压力而在副本分区上发生的拒绝总数。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

此指标在版本 7.9 及更高版本中可用。

UltraWarm 指标

Amazon OpenSearch Service 为 UltraWarm 节点提供以下指标。

指标 描述
WarmCPUUtilization

集群中 UltraWarm 节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有 UltraWarm 节点。此指标也可用于单独的 UltraWarm 节点。

相关统计数据:Maximum、Average

WarmFreeStorageSpace

以 MiB 为单位的可用温存储空间量。由于 UltraWarm 使用 Amazon S3 而不是附加的磁盘,因此 Sum 是唯一相关的统计数据。您必须保留一分钟的时间来获取准确值。

相关统计数据:汇总

WarmSearchableDocuments

跨集群中所有温索引的可搜索文档总数。您必须保留一分钟的时间来获取准确值。

相关统计数据:汇总

WarmSearchLatency

UltraWarm 节点上的分片完成搜索操作所需的平均时间,以毫秒为单位。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum

WarmSearchRate

UltraWarm 节点上所有分片的每分钟搜索请求总数。对 _search API 的单次调用可能会从许多不同的分片返回结果。如果这些分片中有 5 个位于一个节点上,则节点会为此指标报告 5 次,即使客户只发出一次请求也是如此。

相关节点统计数据:Average

相关集群统计数据:Average、Maximum、Sum

WarmStorageSpaceUtilization

集群使用的温存储空间总量。

相关统计数据:Maximum

HotStorageSpaceUtilization

集群使用的热存储空间总量。

相关统计数据:Maximum

WarmSysMemoryUtilization

使用中的温节点内存的百分比。

相关统计数据:Maximum

HotToWarmMigrationQueueSize

当前等待从热存储迁移到温存储的索引数。

相关统计数据:Maximum

WarmToHotMigrationQueueSize

当前等待从温存储迁移到热存储的索引数。

相关统计数据:Maximum

HotToWarmMigrationFailureCount

从热迁移到温迁移失败的总数。

相关统计数据:汇总

HotToWarmMigrationForceMergeLatency

迁移过程的强制合并阶段的平均延迟时间。如果这个阶段始终需要太长时间,请考虑增加 index.ultrawarm.migration.force_merge.max_num_segments

相关统计数据:Average

HotToWarmMigrationSnapshotLatency

迁移过程快照阶段的平均延迟时间。如果此阶段始终花费太长时间,请确保分区的大小适当,并在整个集群中分布。

相关统计数据:Average

HotToWarmMigrationProcessingLatency

成功从热迁移到温迁移的平均延迟时间,包括队列中花费的时间。此值是完成迁移过程的强制合并、快照和分区重新定位阶段所需的时间总和。

相关统计数据:Average

HotToWarmMigrationSuccessCount

成功从热迁移到温迁移的总数。

相关统计数据:汇总

HotToWarmMigrationSuccessLatency

成功从热迁移到温迁移的平均延迟时间,包括在队列中花费的时间。

相关统计数据:Average

WarmThreadpoolSearchThreads

UltraWarm 搜索线程池的大小。

相关节点统计数据:Maximum

相关集群统计数据:Average、Sum

WarmThreadpoolSearchRejected

UltraWarm 搜索线程池中的已拒绝任务数。如果此数量持续增长,请考虑增加更多的 UltraWarm 节点。

相关节点统计数据:Maximum

相关集群统计数据:Sum

WarmThreadpoolSearchQueue UltraWarm 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑增加更多的 UltraWarm 节点。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

WarmJVMMemoryPressure

用于 UltraWarm 节点的 Java 堆的最大百分比。

相关统计数据:Maximum

WarmJVMGCYoungCollectionCount

“年轻代”垃圾回收在 UltraWarm 节点上的运行次数。大量不断增长的运行数对于集群操作来说是正常的。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

WarmJVMGCYoungCollectionTime

集群对 UltraWarm 节点执行“年轻代”垃圾回收所花费的时间,以毫秒为单位。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

WarmJVMGCOldCollectionCount

“年老代”垃圾回收在 UltraWarm 节点上的运行次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。

相关节点统计数据:Maximum

相关集群统计数据:Sum、Maximum、Average

冷存储指标

Amazon OpenSearch Service 为冷存储提供以下指标。

指标 描述
ColdStorageSpaceUtilization

集群使用的冷存储空间总量,以 MiB 为单位。

相关统计数据:Max

ColdToWarmMigrationFailureCount

从冷到温迁移失败的总数。

相关统计数据:汇总

ColdToWarmMigrationLatency

成功完成冷到温迁移所需的时间量。

相关统计数据:Average

ColdToWarmMigrationQueueSize

当前等待从冷存储迁移到温存储的索引数。

相关统计数据:Maximum

ColdToWarmMigrationSuccessCount

成功从冷到温迁移的总数。

相关统计数据:汇总

WarmToColdMigrationFailureCount

从温到冷迁移失败的总数。

相关统计数据:汇总

WarmToColdMigrationLatency

成功完成温到冷迁移的时间量。

相关统计数据:Average

WarmToColdMigrationQueueSize

当前等待从温存储迁移到冷存储的索引数。

相关统计数据:Maximum

WarmToColdMigrationSuccessCount

成功从温到冷迁移的总数。

相关统计数据:汇总

提醒指标

Amazon OpenSearch Service 为提醒提供以下指标。

指标 描述
AlertingDegraded

值为 1 表示警报索引为红色,或一个或多个节点未按计划运行。值为 0 表示行为正常。

相关统计数据:Maximum

AlertingIndexExists

值为 1 表示 .opendistro-alerting-config 索引存在。值为 0 表示该索引不存在。在您首次使用警报功能之前,此值将保持为 0。

相关统计数据:Maximum

AlertingIndexStatus.green

索引的运行状况。值为 1 表示绿色。值为 0 表示索引不存在或不是绿色。

相关统计数据:Maximum

AlertingIndexStatus.red

索引的运行状况。值为 1 表示红色。值为 0 表示索引不存在或不是红色。

相关统计数据:Maximum

AlertingIndexStatus.yellow

索引的运行状况。值为 1 表示黄色。值为 0 表示索引不存在或不是黄色。

相关统计数据:Maximum

AlertingNodesNotOnSchedule

值为 1 表示某些作业未按计划运行。值为 0 表示所有警报作业都按计划运行(或警报作业不存在)。检查 OpenSearch Service 控制台或发出 _nodes/stats 请求,以查看是否有节点显示高资源使用率。

相关统计数据:Maximum

AlertingNodesOnSchedule

值为 1 表示所有警报作业都按计划运行(或警报作业不存在)。值为 0 表示某些作业未按计划运行。

相关统计数据:Maximum

AlertingScheduledJobEnabled

值为 1 表示 opendistro.scheduled_jobs.enabled 集群设置为 true。值为 0 表示该设置为 false,并且计划的作业已禁用。

相关统计数据:Maximum

异常检测指标

Amazon OpenSearch Service 为异常检测提供以下指标。

指标 描述
ADPluginUnhealthy

值为 1 表示异常检测插件无法正常工作,或者因为故障次数太多,或者因为它使用了一个红色的索引。值为 0 表示插件正按预期工作。

相关统计数据:Maximum

ADExecuteRequestCount

检测异常的请求数。

相关统计数据:汇总

ADExecuteFailureCount

检测异常的失败请求数。

相关统计数据:汇总

ADHCExecuteFailureCount

检测高基数探测器异常的失败请求数。

相关统计数据:汇总

ADHCExecuteRequestCount

检测高基数探测器异常的请求数。

相关统计数据:汇总

ADAnomalyResultsIndexStatusIndexExists

值为 1 表示 .opendistro-anomaly-results 别名指向的索引存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADAnomalyResultsIndexStatus.red

值为 1 表示 .opendistro-anomaly-results 别名指向的索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADAnomalyDetectorsIndexStatusIndexExists

值为 1 表示 .opendistro-anomaly-detectors 索引存在。值为 0 表示该索引不存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADAnomalyDetectorsIndexStatus.red

值为 1 表示 .opendistro-anomaly-detectors 索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADModelsCheckpointIndexStatusIndexExists

值为 1 表示 .opendistro-anomaly-checkpoints 索引存在。值为 0 表示该索引不存在。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

ADModelsCheckpointIndexStatus.red

值为 1 表示 .opendistro-anomaly-checkpoints 索引为红色。值为 0 表示不是。在首次使用异常检测之前,此值将保持为 0。

相关统计数据:Maximum

Amazon OpenSearch Service 为异步搜索提供以下指标。

异步搜索协调器节点统计数据(每个协调器节点)

指标 描述
AsynchronousSearchSubmissionRate

过去 1 分钟内提交的异步搜索数。

AsynchronousSearchInitializedRate

过去 1 分钟内初始化的异步搜索数。

AsynchronousSearchRunningCurrent

当前正在运行的异步搜索数。

AsynchronousSearchCompletionRate

过去 1 分钟内成功完成的异步搜索数。

AsynchronousSearchFailureRate

最后一分钟内完成和失败的异步搜索数。

AsynchronousSearchPersistRate

过去 1 分钟内持续存在的异步搜索数。

AsynchronousSearchPersistFailedRate

最后一分钟内失败的异步搜索数。

AsynchronousSearchRejected

自节点启动时间以来拒绝的异步搜索总数。

AsynchronousSearchCancelled

自节点启动时间以来取消的异步搜索总数。

AsynchronousSearchMaxRunningTime

最后一分钟内节点上运行时间最长的异步搜索的持续时间。

异步搜索集群统计数据

指标 描述
AsynchronousSearchStoreHealth

最后一分钟内持久索引(红色/非红色)中的存储运行状况。

AsynchronousSearchStoreSize

过去 1 分钟内跨所有分区的系统索引大小。

AsynchronousSearchStoredResponseCount

过去 1 分钟内系统索引中存储的响应数。

SQL 指标

Amazon OpenSearch Service 为 SQL 支持提供以下指标。

指标 描述
SQLFailedRequestCountByCusErr

由于客户端问题而失败的对 _sql API 的请求数。例如,请求可能会因 IndexNotFoundException 返回 HTTP 状态代码 400。

相关统计数据:汇总

SQLFailedRequestCountBySysErr

由于服务器问题或功能限制而失败的对 _sql API 的请求数。例如,请求可能会因 VerificationException 返回 HTTP 状态代码 503。

相关统计数据:汇总

SQLRequestCount

_sql API 的请求数。

相关统计数据:汇总

SQLDefaultCursorRequestCount

类似于 SQLRequestCount,但仅统计分页请求。

相关统计数据:汇总

SQLUnhealthy

值为 1 表示 SQL 插件将返回 5xx 响应代码或将无效的查询 DSL 传递到 OpenSearch 来响应特定请求。其他请求将继续成功。值为 0 表示最近未失败。如果您看到持续值为 1,请排查您的客户端对插件发出的请求的问题。

相关统计数据:Maximum

k-NN 指标

Amazon OpenSearch Service 包括 k 最近邻 (k-NN) 插件的以下指标。

指标 描述
KNNCacheCapacityReached

每节点指标,用于是否已达到缓存容量。此指标仅与近似 k-NN 搜索相关。

相关统计数据:Maximum

KNNCircuitBreakerTriggered

每个集群指标,用于是否触发断路器。如果任何节点返回 KNNCacheCapacityReached 值为 1,则此值也将返回 1。此指标仅与近似 k-NN 搜索相关。

相关统计数据:Maximum

KNNEvictionCount

由于内存限制或空闲时间而从缓存中移出的图形数的每节点指标。不计入由于索引删除而发生的显式移出。此指标仅与近似 k-NN 搜索相关。

相关统计数据:汇总

KNNGraphIndexErrors

每节点指标,用于将文档的 knn_vector 字段添加到产生错误的图形的请求数。

相关统计数据:汇总

KNNGraphIndexRequests

每节点指标,用于将文档的 knn_vector 字段添加到图形的请求数。

相关统计数据:汇总

KNNGraphMemoryUsage

当前缓存大小(内存中所有图形的总大小)的每节点指标(以千字节为单位)。此指标仅与近似 k-NN 搜索相关。

相关统计数据:Average

KNNGraphQueryErrors

产生错误的图形查询数的每节点指标。

相关统计数据:汇总

KNNGraphQueryRequests

图形查询次数的每节点指标。

相关统计数据:汇总

KNNHitCount

缓存命中次数的每节点指标。当用户查询已加载到内存中的图形时,会发生缓存命中。此指标仅与近似 k-NN 搜索相关。

相关统计数据:汇总

KNNLoadExceptionCount

尝试将图形加载到缓存时发生异常次数的每节点指标。此指标仅与近似 k-NN 搜索相关。

相关统计数据:汇总

KNNLoadSuccessCount

每节点指标,用于插件将图形成功加载到缓存中的次数。此指标仅与近似 k-NN 搜索相关。

相关统计数据:汇总

KNNMissCount

缓存未命中次数的每节点指标。当用户查询尚未加载到内存中的图形时,会发生缓存未命中。此指标仅与近似 k-NN 搜索相关。

相关统计数据:汇总

KNNQueryRequests

k-NN 插件收到的查询请求数的每节点指标。

相关统计数据:汇总

KNNScriptCompilationErrors

每节点指标,用于脚本编译过程中的错误数。此统计数据仅与 k-NN 分数脚本搜索相关。

相关统计数据:汇总

KNNScriptCompilations

每节点指标,用于编译 k-NN 脚本的次数。此值通常应为 1 或 0,但是如果包含已编译脚本的缓存已填充,k-NN 脚本可能会重新编译。此统计数据仅与 k-NN 分数脚本搜索相关。

相关统计数据:汇总

KNNScriptQueryErrors

脚本查询过程中错误数的每节点指标。此统计数据仅与 k-NN 分数脚本搜索相关。

相关统计数据:汇总

KNNScriptQueryRequests

脚本查询总数的每节点指标。此统计数据仅与 k-NN 分数脚本搜索相关。

相关统计数据:汇总

KNNTotalLoadTime

k-NN 将图形加载到缓存中所花费的时间(以纳秒为单位)。此指标仅与近似 k-NN 搜索相关。

相关统计数据:汇总

Amazon OpenSearch Service 为跨集群搜索提供以下指标。

源域指标

指标 维度 描述
CrossClusterOutboundConnections

ConnectionId

连接的节点数。如果响应中包含一个或多个跳过的域,则可使用此指标跟踪任何运行状况不佳的连接。如果此数值降至 0,则连接运行状况不佳。

CrossClusterOutboundRequests

ConnectionId

发送到目标域的搜索请求数。用于检查跨集群搜索请求的负载是否使域不堪重负,将此指标的任何峰值与任何 JVM/CPU 峰值相关联。

目标域指标

指标 维度 描述
CrossClusterInboundRequests

ConnectionId

从源域接收的传入连接请求数。

如果意外丢失连接,可添加 CloudWatch 警报。有关创建警报的步骤,请参阅基于静态阈值创建 CloudWatch 警报

跨集群复制

Amazon OpenSearch Service 为跨集群复制提供以下指标。

指标 描述
ReplicationRate

每秒复制操作的平均速率。该指标与 IndexingRate 指标类似。

LeaderCheckPoint

特定连接的领导者索引上所有复制索引的全局检查点总和。您可以使用此指标来度量复制延迟。

FollowerCheckPoint

特定连接的关注者索引上所有复制索引的全局检查点总和。您可以使用此指标来度量复制延迟。

学习排名指标

Amazon OpenSearch Service 为学习排名提供以下指标。

指标 描述
LTRRequestTotalCount

排名请求的总计数。

LTRRequestErrorCount

不成功请求的总计数。

LTRStatus.red

跟踪运行插件所需的索引之一是否为红色。

LTRMemoryUsage

插件使用的总内存。

LTRFeatureMemoryUsageInBytes

学习排名功能字段使用的内存量(以字节为单位)。

LTRFeaturesetMemoryUsageInBytes

所有学习排名功能集使用的内存量(以字节为单位)。

LTRModelMemoryUsageInBytes

所有学习排名模型使用的内存量(以字节为单位)。

管道处理语言指标

Amazon OpenSearch Service 为管道处理语言提供以下指标。

指标 描述
PPLFailedRequestCountByCusErr

由于客户端问题而失败的对 _ppl API 的请求数。例如,请求可能会因 IndexNotFoundException 返回 HTTP 状态代码 400。

PPLFailedRequestCountBySysErr

由于服务器问题或功能限制而失败的对 _ppl API 的请求数。例如,请求可能会因 VerificationException 返回 HTTP 状态代码 503。

PPLRequestCount

_ppl API 的请求数。