使用 Amazon CloudWatch 监控 OpenSearch 集群指标
Amazon OpenSearch Service 会将数据从您的域发布到 Amazon CloudWatch。CloudWatch 允许您按一组有序的时间序列数据(称为指标)来检索关于这些数据点的统计数据。OpenSearch Service 每隔 60 秒向 CloudWatch 发送指标。如果您使用通用型 EBS 卷或磁性 EBS 卷,则 EBS 卷指标将仅每五分钟更新一次。有关 Amazon CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南。
OpenSearch Service 控制台将根据来自 CloudWatch 的原始数据显示一系列图表。根据您的需求,您可能更愿意查看 CloudWatch 中的集群数据,而不是控制台中的图表。该服务会将指标存档两周,然后再丢弃。这些指标均是免费提供的,但是 CloudWatch 仍会收取创建控制面板和警报的费用。有关更多信息,请参阅 Amazon CloudWatch 定价
OpenSearch Service 向 CloudWatch 发布以下指标:
查看 CloudWatch 中的指标
CloudWatch 指标的分组首先依据服务命名空间,然后依据每个命名空间内的各种维度组合。
使用 CloudWatch 控制台查看指标
-
通过以下网址打开 CloudWatch 控制台:https://console.aws.amazon.com/cloudwatch/
。 -
在左侧导航窗格中,找到 Metrics(指标),然后选择 All metrics(所有指标)。选择 ES/OpenSearchService 命名空间。
-
选择维度以查看相应指标。单个节点的指标位于
ClientId, DomainName, NodeId
维度中。集群指标位于Per-Domain, Per-Client Metrics
维度中。某些节点指标在集群级别进行聚合,因此包含在这两个维度中。分区指标位于ClientId, DomainName, NodeId, ShardRole
维度中。
使用 Amazon CLI 查看指标列表
运行以下 命令:
aws cloudwatch list-metrics --namespace "ES/OpenSearchService"
解释 OpenSearch Service 中的运行状况图表
要查看 OpenSearch Service 中的指标,请使用集群运行状况和实例运行状况选项卡。Instance health(实例运行状况)选项卡使用框图让您大致了解每个 OpenSearch 节点的运行状况:

-
每个彩色框显示指定时间段内节点的值范围。
-
蓝框表示与其他节点一致的值。红框表示异常值。
-
每个框中的白线显示节点的当前值。
-
每个框两侧的“细线”显示该时间段内所有节点的最小值和最大值。
如果对您的域进行配置更改,则 Cluster health (集群运行状况) 和 Instance health (实例运行状况) 选项卡中各个实例的列表的大小通常会在短时间内增长一倍,然后再恢复为正确数量。有关此行为的说明,请参阅在 Amazon OpenSearch Service 中进行配置更改。
集群指标
Amazon OpenSearch Service 为集群提供以下指标。
指标 | 描述 |
---|---|
ClusterStatus.green |
值为 1 指示将所有索引分片分配给集群中的节点。 相关统计数据:Maximum |
ClusterStatus.yellow |
值为 1 指示将所有索引的主要分片分配给集群中的节点,但是至少有一个索引的分片副本不是如此。有关更多信息,请参阅黄色集群状态。 相关统计数据:Maximum |
ClusterStatus.red |
值为 1 指示至少一个索引的主分片和副本分片未分配给集群中的节点。有关更多信息,请参阅红色集群状态。 相关统计数据:Maximum |
Shards.active |
活动主分区和副本分区的总数。 相关统计数据:最大值、总计 |
Shards.unassigned |
未分配给集群中节点的分区数。 相关统计数据:最大值、总计 |
Shards.delayedUnassigned |
其节点分配因超时设置已延迟的分区数。 相关统计数据:最大值、总计 |
Shards.activePrimary |
活动主分区数。 相关统计数据:最大值、总计 |
Shards.initializing |
正在初始化的分区数。 相关统计数据:总计 |
Shards.relocating |
正在重新定位的分区数。 相关统计数据:总计 |
Nodes |
OpenSearch Service 集群中的节点数,包括专用主节点和 UltraWarm 节点。有关更多信息,请参阅在 Amazon OpenSearch Service 中进行配置更改。 相关统计数据:Maximum |
SearchableDocuments |
跨集群中所有数据节点的可搜索文档的总数。 相关统计数据:最小值、最大值、平均值 |
DeletedDocuments |
跨集群的所有数据节点已标记为删除的文档总数。这些文档不会再出现在搜索结果中,但 OpenSearch 只会在分段合并期间将已删除的文档从磁盘中移除。此指标在提出删除请求后会增加,在分段合并后会减少。 相关统计数据:最小值、最大值、平均值 |
CPUUtilization |
集群中数据节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有节点。此指标也可用于单独的节点。 相关统计数据:Maximum、Average |
FreeStorageSpace |
集群中各数据节点的可用空间。 OpenSearch Service 控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示此值。
相关统计数据:Minimum、Maximum、Average、Sum |
ClusterUsedSpace |
集群的已使用空间总量。您必须保留一分钟的时间来获取准确值。 OpenSearch Service 控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示此值。 相关统计数据:Minimum、Maximum |
ClusterIndexWritesBlocked |
指示您的集群是接受还是阻止传入的写入请求。值为 0 表示集群接受请求。值为 1 表示阻止请求。 一些常见的因素包括: 相关统计数据:Maximum |
JVMMemoryPressure |
用于集群中所有数据节点的 Java 堆的最大百分比。OpenSearch Service 将实例的一半 RAM 用于 Java 堆,最大堆大小为 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。请参阅为 Amazon OpenSearch Service 推荐的 CloudWatch 警报。 相关统计数据:Maximum 在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释。 |
OldGenJVMMemoryPressure |
集群中所有数据节点上用于“上一代”的 Java 堆的最大百分比。此指标也在节点级别获取。 相关统计数据:Maximum |
AutomatedSnapshotFailure |
集群的失败的自动快照的数量。值 相关统计数据:Minimum、Maximum |
CPUCreditBalance |
集群中的数据节点可用的剩余 CPU 积分。一个 CPU 信用提供一个完整 CPU 核心性能一分钟。有关更多信息,请参阅 Amazon EC2 开发人员指南中的 CPU 组。此指标仅对 T2 实例类型有效。 相关统计数据:Minimum |
OpenSearchDashboardsHealthyNodes (以前称之为 KibanaHealthyNodes ) |
OpenSearch 控制面板的运行状况检查。如果最小值、最大值和平均值都等于 1,则控制面板运行正常。如果您有 10 个节点,最大值为 1,最小值为 0,平均值为 0.7,则意味着 7 个节点 (70%) 运行正常,3 个节点 (30%) 运行状况不佳。 相关统计数据:最小值、最大值、平均值 |
KibanaReportingFailedRequestSysErrCount |
由于服务器问题或功能限制而生成失败的 OpenSearch 控制面板报告的请求数。 相关统计数据:总计 |
KibanaReportingFailedRequestUserErrCount |
由于客户端问题而生成失败的 OpenSearch 控制面板报告的请求数。 相关统计数据:总计 |
KibanaReportingRequestCount |
生成 OpenSearch 控制面板报告的请求总数。 相关统计数据:总计 |
KibanaReportingSuccessCount |
生成 OpenSearch 控制面板报告的成功请求数。 相关统计数据:总计 |
KMSKeyError |
值 1 表示已禁用用于加密静态数据的 Amazon KMS 密钥。要将域还原为正常操作,请重新启用该密钥。控制台仅对该加密静态数据的域显示此指标。 相关统计数据:Minimum、Maximum |
KMSKeyInaccessible |
值 1 表示已删除用于加密静态数据的 Amazon KMS 密钥或已撤销其对 OpenSearch Service 的授权。您无法恢复处于此状态的域。但如果您具有手动快照,则可以使用它将该域的数据迁移到新域。控制台仅对该加密静态数据的域显示此指标。 相关统计数据:Minimum、Maximum |
InvalidHostHeaderRequests |
针对 OpenSearch 集群的包含无效(或缺少)主机标头的 HTTP 请求数。有效请求包括作为主机标头值的域主机名。OpenSearch Service 拒绝对没有限制性访问策略的公共访问域进行无效请求。我们建议对所有域应用限制性访问策略。 如果您看到此指标的较大值,请确认您的 OpenSearch 客户端在其请求中包含域主机名(例如,而不是其 IP 地址)。 相关统计数据:总计 |
OpenSearchRequests(previously ElasticsearchRequests) |
对 OpenSearch 集群发出的请求数。 相关统计数据:总计 |
2xx, 3xx, 4xx, 5xx |
导致指定的 HTTP 响应代码(2xx、3xx、4xx、5xx)的对域的请求数。 相关统计数据:总计 |
ThroughputThrottle |
指示请求是否正因 EBS 卷的吞吐量限制而被节流。值为 1 表示某些请求在选定的时间段内受到节流。值为 0 表示行为正常。 如果您持续看到此指标的值为 1,则可以遵循以下 Amazon 建议的最佳实践,纵向扩展实例。 相关统计数据:Minimum、Maximum |
专用主节点指标
Amazon OpenSearch Service 提供专用主节点的以下指标。
指标 | 描述 |
---|---|
MasterCPUUtilization |
专用主节点使用的 CPU 资源的最大百分比。建议在此指标达到 60% 时增加实例类型的大小。 相关统计数据:Maximum |
MasterFreeStorageSpace |
此指标不相关,可以被忽略。该服务不使用主节点作为数据节点。 |
MasterJVMMemoryPressure |
用于集群中所有专用主节点的 Java 堆的最大百分比。建议在此指标达到 85% 时迁移到更大的实例类型。 相关统计数据:Maximum 在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释。 |
MasterOldGenJVMMemoryPressure |
每个主节点上用于“上一代”的 Java 堆的最大百分比。 相关统计数据:Maximum |
MasterCPUCreditBalance |
集群中专用主节点可用的剩余 CPU 积分。一个 CPU 信用提供一个完整 CPU 核心性能一分钟。有关更多信息,请参阅 Amazon EC2 开发人员指南中的 CPU 组。此指标仅对 T2 实例类型有效。 相关统计数据:Minimum |
MasterReachableFromNode |
失败意味着主节点已停止或无法访问。这通常是由网络连接问题或 Amazon 依赖问题导致的。 相关统计数据:Minimum |
MasterSysMemoryUtilization |
使用中的主节点内存的百分比。 相关统计数据:Maximum |
EBS 卷指标
Amazon OpenSearch Service 为 EBS 卷提供以下指标。
指标 | 描述 |
---|---|
ReadLatency |
EBS 卷上读取操作的延迟(以秒为单位)。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
WriteLatency |
EBS 卷上写入操作的延迟(以秒为单位)。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
ReadThroughput |
EBS 卷上读取操作的吞吐量(以字节/秒为单位)。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
WriteThroughput |
EBS 卷上写入操作的吞吐量(以字节/秒为单位)。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
DiskQueueDepth |
针对 EBS 卷的待处理输入和输出 (I/O) 请求的数量。 相关统计数据:最小值、最大值、平均值 |
ReadIOPS |
针对 EBS 卷上的读取操作的每秒输入和输出 (I/O) 操作数。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
WriteIOPS |
针对 EBS 卷上的写入操作的每秒输入和输出 (I/O) 操作数。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
BurstBalance |
一个 EBS 卷的可爆发存储桶中剩余输入和输出(I/O)积分的百分比。值为 100 表示该卷积累的积分数量已达最大数量。如果此百分比低于 70%,请参阅 EBS 可爆发容量余额低。对于具有 gp3 卷类型的域以及具有卷大小超过 1000 GiB 的 gp2 卷的域,突增余额保持在 0。 相关统计数据:最小值、最大值、平均值 |
实例指标
Amazon OpenSearch Service 为域中的每个实例提供以下指标。OpenSearch Service 还聚合这些实例指标以便您了解总体集群运行状况。您可以使用控制台中的 Sample Count(样本数)统计数据验证此行为。请注意,下表中的每个指标对于节点 和 集群都有相关的统计数据。
Elasticsearch 的不同版本使用不同的线程池来处理对 _index
API 的调用。Elasticsearch 1.5 和 2.3 使用索引线程池。Elasticsearch 5.x、6.0 和 6.2 使用批量线程池。OpenSearch 和 Elasticsearch 6.3 及更高版本使用写入线程池。目前,OpenSearch Service 控制台不包含批量线程池的图形。
使用 GET _cluster/settings?include_defaults=true
来检查集群的线程池和队列大小。
指标 | 描述 |
---|---|
IndexingLatency |
分片完成索引操作所需的平均时间,以毫秒为单位。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
IndexingRate |
每分钟的索引操作数。对 相关节点统计数据:Average 相关集群统计数据:Average、Maximum、Sum |
SearchLatency |
数据节点上的分片完成搜索操作所需的平均时间,以毫秒为单位。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
SearchRate |
数据节点上所有分片的每分钟搜索请求总数。对 相关节点统计数据:Average 相关集群统计数据:Average、Maximum、Sum |
SegmentCount |
数据节点上的分段数。您拥有的分段越多,每次搜索所花费的时间就越长。OpenSearch 偶尔会将较小的分段合并为较大的分段。 相关节点统计数据:最大值、平均值 相关集群统计数据:Sum、Maximum、Average |
SysMemoryUtilization |
使用中的实例内存的百分比。此指标的值较高是正常的,通常不表示集群存在问题。有关潜在性能和稳定性问题的更好指示,请参阅 相关节点统计数据:Minimum、Maximum、Average 相关集群统计数据:Minimum、Maximum、Average |
JVMGCYoungCollectionCount |
“年轻代”垃圾回收的运行次数。大量不断增长的运行数对于集群操作来说是正常的。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
JVMGCYoungCollectionTime |
集群执行“年轻代”垃圾回收所花费的时间,以毫秒为单位。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
JVMGCOldCollectionCount |
“年老代”垃圾回收的运行次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
JVMGCOldCollectionTime |
集群执行“年老代”垃圾回收所花费的时间,以毫秒为单位。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
OpenSearchDashboardsConcurrentConnections (以前称之为 KibanaConcurrentConnections ) |
OpenSearch 控制面板的活动并发连接数。如果此数字始终很高,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
OpenSearchDashboardsHealthyNode (以前称之为 KibanaHealthyNode ) |
单个 OpenSearch 控制面板节点的运行状况检查。值为 1 表示行为正常。值为 0 表示无法访问控制面板。 相关节点统计数据:最小值 相关集群统计数据:Minimum、Maximum、Average |
OpenSearchDashboardsHeapTotal (以前称之为 KibanaHeapTotal ) |
分配给 MiB 中 OpenSearch 控制面板的堆内存量。不同的 EC2 实例类型可能会影响精确的内存分配。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
OpenSearchDashboardsHeapUsed (以前称之为 KibanaHeapUsed ) |
MiB 中 OpenSearch 控制面板使用的绝对堆内存数。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
OpenSearchDashboardsHeapUtilization (以前称之为 KibanaHeapUtilization ) |
OpenSearch 控制面板使用的可用堆内存的最大百分比。如果此值超过 80%,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Minimum、Maximum、Average |
OpenSearchDashboardsOS1MinuteLoad (以前称之为 KibanaOS1MinuteLoad ) |
OpenSearch 控制面板的一分钟 CPU 负载平均值。理想情况下,CPU 负载应保持在 1.00 以下。虽然临时峰值很好,但如果此指标始终高于 1.00,我们建议增加实例类型的大小。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
OpenSearchDashboardsRequestTotal (以前称之为 KibanaRequestTotal ) |
向 OpenSearch 控制面板发出的 HTTP 请求的总计数。如果您的系统速度较慢,或者您看到大量的控制面板请求,请考虑增加实例类型的大小。 相关节点统计数据:总计 相关集群统计数据:Sum |
OpenSearchDashboardsResponseTimesMaxInMillis (以前称之为 KibanaResponseTimesMaxInMillis ) |
OpenSearch 控制面板响应请求的最大时间量(以毫秒为单位)。如果请求一直花费很长时间才能返回结果,请考虑增加实例类型的大小。 相关节点统计数据:Maximum 相关集群统计数据:最大值、平均值 |
ThreadpoolForce_mergeQueue |
强制合并线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolForce_mergeRejected |
强制合并线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolForce_mergeThreads |
强制合并线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolIndexQueue |
索引线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。索引队列的最大大小为 200。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolIndexRejected |
索引线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolIndexThreads |
索引线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolSearchQueue |
搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。搜索队列的最大大小为 1000。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolSearchRejected |
搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolSearchThreads |
搜索线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
Threadpoolsql-workerQueue |
SQL 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
Threadpoolsql-workerRejected |
SQL 搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
Threadpoolsql-workerThreads |
SQL 搜索线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolBulkQueue |
批量线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolBulkRejected |
批量线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolBulkThreads |
批量线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolWriteThreads |
写入线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolWriteQueue |
写入线程池中的排队任务数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolWriteRejected |
写入线程池中的已拒绝任务数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum 由于版本 7.1 中的默认写入队列大小从 200 增加到 10000,因此此指标不再是从 OpenSearch Service 拒绝的唯一指示符。使用 |
CoordinatingWriteRejected |
自上次 OpenSearch Service 进程启动以来,由于索引压力而在协调节点上发生的拒绝总数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum 此指标在版本 7.1 及更高版本中可用。 |
PrimaryWriteRejected |
自上次 OpenSearch Service 进程启动以来,由于索引压力而在主分区上发生的拒绝总数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum 此指标在版本 7.1 及更高版本中可用。 |
ReplicaWriteRejected |
自上次 OpenSearch Service 进程启动以来,由于索引压力而在副本分区上发生的拒绝总数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum 此指标在版本 7.1 及更高版本中可用。 |
UltraWarm 指标
Amazon OpenSearch Service 为 UltraWarm 节点提供以下指标。
指标 | 描述 |
---|---|
WarmCPUUtilization |
集群中 UltraWarm 节点的 CPU 利用率百分比。最大值显示 CPU 利用率最高的节点。平均值表示集群中的所有 UltraWarm 节点。此指标也可用于单独的 UltraWarm 节点。 相关统计数据:Maximum、Average |
WarmFreeStorageSpace |
以 MiB 为单位的可用温存储空间量。由于 UltraWarm 使用 Amazon S3 而不是附加的磁盘,因此 相关统计数据:总计 |
WarmSearchableDocuments |
跨集群中所有温索引的可搜索文档总数。您必须保留一分钟的时间来获取准确值。 相关统计数据:总计 |
WarmSearchLatency
|
UltraWarm 节点上的分片完成搜索操作所需的平均时间,以毫秒为单位。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
WarmSearchRate
|
UltraWarm 节点上所有分片的每分钟搜索请求总数。对 相关节点统计数据:Average 相关集群统计数据:Average、Maximum、Sum |
WarmStorageSpaceUtilization |
集群使用的温存储空间总量。 相关统计数据:Maximum |
HotStorageSpaceUtilization
|
集群使用的热存储空间总量。 相关统计数据:Maximum |
WarmSysMemoryUtilization |
使用中的温节点内存的百分比。 相关统计数据:Maximum |
HotToWarmMigrationQueueSize
|
当前等待从热存储迁移到温存储的索引数。 相关统计数据:Maximum |
WarmToHotMigrationQueueSize
|
当前等待从温存储迁移到热存储的索引数。 相关统计数据:Maximum |
HotToWarmMigrationFailureCount
|
从热迁移到温迁移失败的总数。 相关统计数据:总计 |
HotToWarmMigrationForceMergeLatency
|
迁移过程的强制合并阶段的平均延迟时间。如果这个阶段始终需要太长时间,请考虑增加 相关统计数据:Average |
HotToWarmMigrationSnapshotLatency
|
迁移过程快照阶段的平均延迟时间。如果此阶段始终花费太长时间,请确保分区的大小适当,并在整个集群中分布。 相关统计数据:Average |
HotToWarmMigrationProcessingLatency
|
成功从热迁移到温迁移的平均延迟时间,不包括队列中花费的时间。此值是完成迁移过程的强制合并、快照和分区重新定位阶段所需的时间总和。 相关统计数据:Average |
HotToWarmMigrationSuccessCount
|
成功从热迁移到温迁移的总数。 相关统计数据:总计 |
HotToWarmMigrationSuccessLatency
|
成功从热迁移到温迁移的平均延迟时间,包括在队列中花费的时间。 相关统计数据:Average |
WarmThreadpoolSearchThreads |
UltraWarm 搜索线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
WarmThreadpoolSearchRejected |
UltraWarm 搜索线程池中的已拒绝任务数。如果此数量持续增长,请考虑增加更多的 UltraWarm 节点。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
WarmThreadpoolSearchQueue |
UltraWarm 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑增加更多的 UltraWarm 节点。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
WarmJVMMemoryPressure |
用于 UltraWarm 节点的 Java 堆的最大百分比。 相关统计数据:Maximum 在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释。 |
WarmOldGenJVMMemoryPressure |
每个 UltraWarm 节点上用于“上一代”的 Java 堆的最大百分比。 相关统计数据:Maximum |
WarmJVMGCYoungCollectionCount |
“年轻代”垃圾回收在 UltraWarm 节点上的运行次数。大量不断增长的运行数对于集群操作来说是正常的。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
WarmJVMGCYoungCollectionTime |
集群对 UltraWarm 节点执行“年轻代”垃圾回收所花费的时间,以毫秒为单位。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
WarmJVMGCOldCollectionCount |
“年老代”垃圾回收在 UltraWarm 节点上的运行次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
冷存储指标
Amazon OpenSearch Service 为冷存储提供以下指标。
指标 | 描述 |
---|---|
ColdStorageSpaceUtilization
|
集群使用的冷存储空间总量,以 MiB 为单位。 相关统计数据:最大值 |
ColdToWarmMigrationFailureCount |
从冷到温迁移失败的总数。 相关统计数据:总计 |
ColdToWarmMigrationLatency |
成功完成冷到温迁移所需的时间量。 相关统计数据:Average |
ColdToWarmMigrationQueueSize |
当前等待从冷存储迁移到温存储的索引数。 相关统计数据:Maximum |
ColdToWarmMigrationSuccessCount
|
成功从冷到温迁移的总数。 相关统计数据:总计 |
WarmToColdMigrationFailureCount
|
从温到冷迁移失败的总数。 相关统计数据:总计 |
WarmToColdMigrationLatency |
成功完成温到冷迁移的时间量。 相关统计数据:Average |
WarmToColdMigrationQueueSize |
当前等待从温存储迁移到冷存储的索引数。 相关统计数据:Maximum |
WarmToColdMigrationSuccessCount |
成功从温到冷迁移的总数。 相关统计数据:总计 |
提醒指标
Amazon OpenSearch Service 为提醒提供以下指标。
指标 | 描述 |
---|---|
AlertingDegraded |
值为 1 表示警报索引为红色,或一个或多个节点未按计划运行。值为 0 表示行为正常。 相关统计数据:Maximum |
AlertingIndexExists |
值为 1 表示 相关统计数据:Maximum |
AlertingIndexStatus.green |
索引的运行状况。值为 1 表示绿色。值为 0 表示索引不存在或不是绿色。 相关统计数据:Maximum |
AlertingIndexStatus.red |
索引的运行状况。值为 1 表示红色。值为 0 表示索引不存在或不是红色。 相关统计数据:Maximum |
AlertingIndexStatus.yellow |
索引的运行状况。值为 1 表示黄色。值为 0 表示索引不存在或不是黄色。 相关统计数据:Maximum |
AlertingNodesNotOnSchedule |
值为 1 表示某些作业未按计划运行。值为 0 表示所有警报作业都按计划运行(或警报作业不存在)。检查 OpenSearch Service 控制台或发出 相关统计数据:Maximum |
AlertingNodesOnSchedule |
值为 1 表示所有警报作业都按计划运行(或警报作业不存在)。值为 0 表示某些作业未按计划运行。 相关统计数据:Maximum |
AlertingScheduledJobEnabled |
值为 1 表示 相关统计数据:Maximum |
异常检测指标
Amazon OpenSearch Service 为异常检测提供以下指标。
指标 | 描述 |
---|---|
ADPluginUnhealthy |
值为 1 表示异常检测插件无法正常工作,或者因为故障次数太多,或者因为它使用了一个红色的索引。值为 0 表示插件正按预期工作。 相关统计数据:Maximum |
ADExecuteRequestCount |
检测异常的请求数。 相关统计数据:总计 |
ADExecuteFailureCount
|
检测异常的失败请求数。 相关统计数据:总计 |
ADHCExecuteFailureCount |
检测高基数探测器异常的失败请求数。 相关统计数据:总计 |
ADHCExecuteRequestCount |
检测高基数探测器异常的请求数。 相关统计数据:总计 |
ADAnomalyResultsIndexStatusIndexExists |
值为 1 表示 相关统计数据:Maximum |
ADAnomalyResultsIndexStatus.red |
值为 1 表示 相关统计数据:Maximum |
ADAnomalyDetectorsIndexStatusIndexExists |
值为 1 表示 相关统计数据:Maximum |
ADAnomalyDetectorsIndexStatus.red |
值为 1 表示 相关统计数据:Maximum |
ADModelsCheckpointIndexStatusIndexExists |
值为 1 表示 相关统计数据:Maximum |
ADModelsCheckpointIndexStatus.red |
值为 1 表示 相关统计数据:Maximum |
异步搜索指标
Amazon OpenSearch Service 为异步搜索提供以下指标。
异步搜索协调器节点统计数据(每个协调器节点)
指标 | 描述 |
---|---|
AsynchronousSearchSubmissionRate |
过去 1 分钟内提交的异步搜索数。 |
AsynchronousSearchInitializedRate |
过去 1 分钟内初始化的异步搜索数。 |
AsynchronousSearchRunningCurrent |
当前正在运行的异步搜索数。 |
AsynchronousSearchCompletionRate |
过去 1 分钟内成功完成的异步搜索数。 |
AsynchronousSearchFailureRate |
最后一分钟内完成和失败的异步搜索数。 |
AsynchronousSearchPersistRate |
过去 1 分钟内持续存在的异步搜索数。 |
AsynchronousSearchPersistFailedRate |
最后一分钟内失败的异步搜索数。 |
AsynchronousSearchRejected |
自节点启动时间以来拒绝的异步搜索总数。 |
AsynchronousSearchCancelled |
自节点启动时间以来取消的异步搜索总数。 |
AsynchronousSearchMaxRunningTime |
最后一分钟内节点上运行时间最长的异步搜索的持续时间。 |
异步搜索集群统计数据
指标 | 描述 |
---|---|
AsynchronousSearchStoreHealth |
最后一分钟内持久索引(红色/非红色)中的存储运行状况。 |
AsynchronousSearchStoreSize |
过去 1 分钟内跨所有分区的系统索引大小。 |
AsynchronousSearchStoredResponseCount |
过去 1 分钟内系统索引中存储的响应数。 |
SQL 指标
Amazon OpenSearch Service 为 SQL 支持提供以下指标。
指标 | 描述 |
---|---|
SQLFailedRequestCountByCusErr |
由于客户端问题而失败的对 相关统计数据:总计 |
SQLFailedRequestCountBySysErr |
由于服务器问题或功能限制而失败的对 相关统计数据:总计 |
SQLRequestCount |
对 相关统计数据:总计 |
SQLDefaultCursorRequestCount |
类似于 相关统计数据:总计 |
SQLUnhealthy |
值为 1 表示 SQL 插件将返回 5xx 响应代码或将无效的查询 DSL 传递到 OpenSearch 来响应特定请求。其他请求将继续成功。值为 0 表示最近未失败。如果您看到持续值为 1,请排查您的客户端对插件发出的请求的问题。 相关统计数据:Maximum |
k-NN 指标
Amazon OpenSearch Service 包括 k 最近邻 (k-NN) 插件的以下指标。
指标 | 描述 |
---|---|
KNNCacheCapacityReached |
每节点指标,用于是否已达到缓存容量。此指标仅与近似 k-NN 搜索相关。 相关统计数据:Maximum |
KNNCircuitBreakerTriggered |
每个集群指标,用于是否触发断路器。如果任何节点返回 相关统计数据:Maximum |
KNNEvictionCount |
由于内存限制或空闲时间而从缓存中移出的图形数的每节点指标。不计入由于索引删除而发生的显式移出。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNGraphIndexErrors |
每节点指标,用于将文档的 相关统计数据:总计 |
KNNGraphIndexRequests |
每节点指标,用于将文档的 相关统计数据:总计 |
KNNGraphMemoryUsage |
当前缓存大小(内存中所有图形的总大小)的每节点指标(以千字节为单位)。此指标仅与近似 k-NN 搜索相关。 相关统计数据:Average |
KNNGraphQueryErrors |
产生错误的图形查询数的每节点指标。 相关统计数据:总计 |
KNNGraphQueryRequests |
图形查询次数的每节点指标。 相关统计数据:总计 |
KNNHitCount |
缓存命中次数的每节点指标。当用户查询已加载到内存中的图形时,会发生缓存命中。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNLoadExceptionCount |
尝试将图形加载到缓存时发生异常次数的每节点指标。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNLoadSuccessCount |
每节点指标,用于插件将图形成功加载到缓存中的次数。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNMissCount |
缓存未命中次数的每节点指标。当用户查询尚未加载到内存中的图形时,会发生缓存未命中。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNQueryRequests |
k-NN 插件收到的查询请求数的每节点指标。 相关统计数据:总计 |
KNNScriptCompilationErrors |
每节点指标,用于脚本编译过程中的错误数。此统计数据仅与 k-NN 分数脚本搜索相关。 相关统计数据:总计 |
KNNScriptCompilations |
每节点指标,用于编译 k-NN 脚本的次数。此值通常应为 1 或 0,但是如果包含已编译脚本的缓存已填充,k-NN 脚本可能会重新编译。此统计数据仅与 k-NN 分数脚本搜索相关。 相关统计数据:总计 |
KNNScriptQueryErrors |
脚本查询过程中错误数的每节点指标。此统计数据仅与 k-NN 分数脚本搜索相关。 相关统计数据:总计 |
KNNScriptQueryRequests |
脚本查询总数的每节点指标。此统计数据仅与 k-NN 分数脚本搜索相关。 相关统计数据:总计 |
KNNTotalLoadTime |
k-NN 将图形加载到缓存中所花费的时间(以纳秒为单位)。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
跨集群搜索指标
Amazon OpenSearch Service 为跨集群搜索提供以下指标。
源域指标
指标 | 维度 | 描述 |
---|---|---|
CrossClusterOutboundConnections |
|
连接的节点数。如果响应中包含一个或多个跳过的域,则可使用此指标跟踪任何运行状况不佳的连接。如果此数值降至 0,则连接运行状况不佳。 |
CrossClusterOutboundRequests |
|
发送到目标域的搜索请求数。用于检查跨集群搜索请求的负载是否使域不堪重负,将此指标的任何峰值与任何 JVM/CPU 峰值相关联。 |
目标域指标
指标 | 维度 | 描述 |
---|---|---|
CrossClusterInboundRequests |
|
从源域接收的传入连接请求数。 |
如果意外丢失连接,可添加 CloudWatch 警报。有关创建警报的步骤,请参阅基于静态阈值创建 CloudWatch 警报。
跨集群复制指标
Amazon OpenSearch Service 为跨集群复制提供以下指标。
指标 | 描述 |
---|---|
ReplicationRate |
每秒复制操作的平均速率。该指标与 |
LeaderCheckPoint |
对于某个特定连接,涵盖所有复制索引的领导者索引检查点值的和。您可以使用此指标来度量复制延迟。 |
FollowerCheckPoint |
对于某个特定连接,涵盖所有复制索引的跟随者索引检查点值的和。您可以使用此指标来度量复制延迟。 |
ReplicationNumSyncingIndices |
复制状态为 |
ReplicationNumBootstrappingIndices |
复制状态为 |
ReplicationNumPausedIndices |
复制状态为 |
ReplicationNumFailedIndices |
复制状态为 |
AutoFollowNumSuccessStartReplication |
特定连接的复制规则已成功创建的跟随者索引的数量。 |
AutoFollowNumFailedStartReplication |
存在匹配模式时,复制规则未能创建的跟随者索引的数量。出现此问题的原因可能是远程集群上的网络问题或安全问题(即关联的角色不具有启动复制的权限)。 |
AutoFollowLeaderCallFailure |
从跟随者索引到领导者索引的提取新数据的查询是否有任何失败。值为 |
学习排名指标
Amazon OpenSearch Service 为学习排名提供以下指标。
指标 | 描述 |
---|---|
LTRRequestTotalCount |
排名请求的总计数。 |
LTRRequestErrorCount |
不成功请求的总计数。 |
LTRStatus.red |
跟踪运行插件所需的索引之一是否为红色。 |
LTRMemoryUsage |
插件使用的总内存。 |
LTRFeatureMemoryUsageInBytes |
学习排名功能字段使用的内存量(以字节为单位)。 |
LTRFeaturesetMemoryUsageInBytes |
所有学习排名功能集使用的内存量(以字节为单位)。 |
LTRModelMemoryUsageInBytes |
所有学习排名模型使用的内存量(以字节为单位)。 |
管道处理语言指标
Amazon OpenSearch Service 为管道处理语言提供以下指标。
指标 | 描述 |
---|---|
PPLFailedRequestCountByCusErr |
由于客户端问题而失败的对 |
PPLFailedRequestCountBySysErr |
由于服务器问题或功能限制而失败的对 |
PPLRequestCount |
对 |