本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon 监控 OpenSearch 集群指标 CloudWatch
亚马逊 OpenSearch 服务会将您的域名中的数据发布到亚马逊 CloudWatch。 CloudWatch 允许您以一组有序的时间序列数据(称为指标)的形式检索有关这些数据点的统计信息。 OpenSearch 服务以 60 秒为间隔向 CloudWatch 发送大多数指标。如果您使用通用卷或磁性EBS卷,则EBS音量指标仅每五分钟更新一次。所有累积性指标(例如 ThreadpoolWriteRejected
、ThreadpoolSearchRejected
)都在内存中,并且会丢失状态。在节点丢弃、节点反弹、节点更换和蓝绿部署期间,指标将会重置。有关亚马逊的更多信息 CloudWatch,请参阅亚马逊 CloudWatch 用户指南。
OpenSearch 服务控制台根据来自的原始数据显示一系列图表 CloudWatch。根据您的需求,您可能更喜欢在中查看集群数据, CloudWatch 而不是在控制台中查看图表。该服务会将指标存档两周,然后再丢弃。这些指标不收取额外费用,但创建仪表板和警报 CloudWatch 仍会收费。有关更多信息,请参阅 Amazon CloudWatch 定价
OpenSearch 服务将以下指标发布到 CloudWatch:
在中查看指标 CloudWatch
CloudWatch 指标首先按服务命名空间分组,然后按每个命名空间内的各种维度组合进行分组。
使用 CloudWatch 控制台查看指标
-
打开 CloudWatch 控制台,网址为https://console.aws.amazon.com/cloudwatch/
。 -
在左侧导航窗格中,找到 Metrics(指标),然后选择 All metrics(所有指标)。选择 ES/ OpenSearchService 命名空间。
-
选择维度以查看相应指标。单个节点的指标位于
ClientId, DomainName, NodeId
维度中。集群指标位于Per-Domain, Per-Client Metrics
维度中。某些节点指标在集群级别进行聚合,因此包含在这两个维度中。分区指标位于ClientId, DomainName, NodeId, ShardRole
维度中。
要查看指标列表,请使用 Amazon CLI
运行以下命令:
aws cloudwatch list-metrics --namespace "AWS/ES"
解读 OpenSearch 服务中的健康图表
要在 S OpenSearch ervice 中查看指标,请使用集群运行状况和实例运行状况选项卡。实例运行状况选项卡使用方框图 at-a-glance来查看每个 OpenSearch节点的运行状况:
-
每个彩色框显示指定时间段内节点的值范围。
-
蓝框表示与其他节点一致的值。红框表示异常值。
-
每个框中的白线显示节点的当前值。
-
每个框两侧的“细线”显示该时间段内所有节点的最小值和最大值。
如果对您的域进行配置更改,则 Cluster health (集群运行状况) 和 Instance health (实例运行状况) 选项卡中各个实例的列表的大小通常会在短时间内增长一倍,然后再恢复为正确数量。有关此行为的说明,请参阅在 Amazon OpenSearch 服务中进行配置更改。
集群指标
Amazon OpenSearch 服务为集群提供以下指标。
指标 | 描述 |
---|---|
ClusterStatus.green |
值为 1 指示将所有索引分片分配给集群中的节点。 相关统计数据:Maximum |
ClusterStatus.yellow |
值为 1 指示将所有索引的主要分片分配给集群中的节点,但是至少有一个索引的分片副本不是如此。有关更多信息,请参阅 黄色集群状态。 相关统计数据:Maximum |
ClusterStatus.red |
值为 1 指示至少一个索引的主分片和副本分片未分配给集群中的节点。有关更多信息,请参阅 红色集群状态。 相关统计数据:Maximum |
Shards.active |
活动主分区和副本分区的总数。 相关统计数据:最大值、总计 |
Shards.unassigned |
未分配给集群中节点的分区数。 相关统计数据:最大值、总计 |
Shards.delayedUnassigned |
其节点分配因超时设置已延迟的分区数。 相关统计数据:最大值、总计 |
Shards.activePrimary |
活动主分区数。 相关统计数据:最大值、总计 |
Shards.initializing |
正在初始化的分区数。 相关统计数据:总计 |
Shards.relocating |
正在重新定位的分区数。 相关统计数据:总计 |
Nodes |
OpenSearch 服务集群中的节点数量,包括专用主 UltraWarm 节点和节点。有关更多信息,请参阅 在 Amazon OpenSearch 服务中进行配置更改。 相关统计数据:Maximum |
SearchableDocuments |
跨集群中所有数据节点的可搜索文档的总数。 相关统计数据:最小值、最大值、平均值 |
DeletedDocuments |
跨集群的所有数据节点已标记为删除的文档总数。这些文档不再出现在搜索结果中, OpenSearch 只会在段合并期间从磁盘中删除已删除的文档。此指标在提出删除请求后会增加,在分段合并后会减少。 相关统计数据:最小值、最大值、平均值 |
CPUUtilization |
集群中数据节点的CPU使用百分比。最大值显示CPU使用率最高的节点。平均值表示集群中的所有节点。此指标也可用于单独的节点。 相关统计数据:Maximum、Average |
FreeStorageSpace |
集群中各数据节点的可用空间。 OpenSearch 服务控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示它。 注意
相关统计数据:Minimum、Maximum、Average、Sum |
ClusterUsedSpace |
集群的已使用空间总量。您必须保留一分钟的时间来获取准确值。 OpenSearch 服务控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示它。 相关统计数据:Minimum、Maximum |
ClusterIndexWritesBlocked |
指示您的集群是接受还是阻止传入的写入请求。值为 0 表示集群接受请求。值为 1 表示阻止请求。 一些常见的因素包括: 相关统计数据:Maximum |
JVMMemoryPressure |
用于集群中所有数据节点的 Java 堆的最大百分比。 OpenSearch 服务将一半的实例用RAM于 Java 堆,堆大小不超过 32 GiB。您可以将实例垂直扩展到 64 GiBRAM,此时您可以通过添加实例进行水平扩展。请参阅 Amazon OpenSearch 服务的推荐 CloudWatch 警报。 相关统计数据:Maximum 注意在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释。 |
OldGenJVMMemoryPressure |
集群中所有数据节点上用于“上一代”的 Java 堆的最大百分比。此指标也在节点级别获取。 相关统计数据:Maximum |
AutomatedSnapshotFailure |
集群的失败的自动快照的数量。值 相关统计数据:Minimum、Maximum |
CPUCreditBalance |
可用于集群中数据节点的剩余CPU积分。CPU积分提供一分钟CPU内完整内核的性能。有关更多信息,请参阅《Amazon EC2 开发者指南》中的CPU积分。此指标仅对 T2 实例类型有效。 相关统计数据:Minimum |
OpenSearchDashboardsHealthyNodes |
OpenSearch 仪表板的运行状况检查。如果最小值、最大值和平均值都等于 1,则控制面板运行正常。如果您有 10 个节点,最大值为 1,最小值为 0,平均值为 0.7,则意味着 7 个节点 (70%) 运行正常,3 个节点 (30%) 运行状况不佳。 相关统计数据:最小值、最大值、平均值 |
OpensearchDashboardsReportingFailedRequestSysErrCount |
由于服务器问题或功能限制而失败的生成 OpenSearch 仪表板报告的请求数。 相关统计数据:总计 |
OpensearchDashboardsReportingFailedRequestUserErrCount |
由于客户端问题而失败的生成 OpenSearch 仪表板报告的请求数。 相关统计数据:总计 |
OpensearchDashboardsReportingRequestCount |
生成 OpenSearch 控制面板报告的请求总数。 相关统计数据:总计 |
OpensearchDashboardsReportingSuccessCount |
成功请求生成 OpenSearch 仪表板报告的次数。 相关统计数据:总计 |
KMSKeyError |
值为 1 表示用于加密静态数据的密 Amazon KMS 钥已被禁用。要将域还原为正常操作,请重新启用该密钥。控制台仅对该加密静态数据的域显示此指标。 相关统计数据:Minimum、Maximum |
KMSKeyInaccessible |
值为 1 表示用于加密静态数据的 Amazon KMS 密钥已被删除或撤销其对 Serv OpenSearch ice 的授权。您无法恢复处于此状态的域。但如果您具有手动快照,则可以使用它将该域的数据迁移到新域。控制台仅对该加密静态数据的域显示此指标。 相关统计数据:Minimum、Maximum |
InvalidHostHeaderRequests |
向 OpenSearch 集群发出的包含无效(或缺失)主机标头的HTTP请求数。有效的请求包括域主机名作为主机标头值。 OpenSearch 对于没有限制性访问策略的公共访问域,Service 会拒绝无效请求。我们建议对所有域应用限制性访问策略。 如果您看到此指标的值很大,请确认您的 OpenSearch 客户端在其请求中包含域主机名(而不是其 IP 地址)。 相关统计数据:总计 |
OpenSearchRequests (previously
ElasticsearchRequests) |
向 OpenSearch 集群发出的请求数。 相关统计数据:总计 |
2xx, 3xx, 4xx, 5xx |
产生给定HTTP响应码的域名请求的数量(2 xx、3 xx、4 x x、5 xx)。 相关统计数据:总计 |
ThroughputThrottle |
指示磁盘是否受到节流。当 有关实例吞吐量的信息,请参阅 Amazon EBS 优化实例。有关卷吞吐量的信息,请参阅 Amazon EBS 卷类型 相关统计数据:Minimum、Maximum |
IopsThrottle |
表示域上每秒的输入/输出操作数 (IOPS) 是否已被限制。当IOPS数据节点违反EBS容量或数据节点EC2实例的最大允许限制时,就会发生限制。 有关实例的信息IOPS,请参阅 Amazon EBS 优化实例。有关卷的信息IOPS,请参阅 Amazon EBS 卷类型 相关统计数据:Minimum、Maximum |
HighSwapUsage |
值为 1 表示页面错误引起的交换可能会在特定时间段内导致底层磁盘使用量激增。 相关统计数据:Maximum |
专用主节点指标
Amazon OpenSearch 服务为专用主节点提供以下指标。
指标 | 描述 |
---|---|
MasterCPUUtilization |
专用主节点使用CPU资源的最大百分比。建议在此指标达到 60% 时增加实例类型的大小。 相关统计数据:Maximum |
MasterFreeStorageSpace |
此指标不相关,可以被忽略。该服务不使用主节点作为数据节点。 |
MasterJVMMemoryPressure |
用于集群中所有专用主节点的 Java 堆的最大百分比。建议在此指标达到 85% 时迁移到更大的实例类型。 相关统计数据:Maximum 注意在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释。 |
MasterOldGenJVMMemoryPressure |
每个主节点上用于“上一代”的 Java 堆的最大百分比。 相关统计数据:Maximum |
MasterCPUCreditBalance |
可用于集群中专用主节点的剩余CPU积分。CPU积分提供一分钟CPU内完整内核的性能。有关更多信息,请参阅《Amazon EC2 开发者指南》中的CPU积分。此指标仅对 T2 实例类型有效。 相关统计数据:Minimum |
MasterReachableFromNode |
失败意味着无法从源节点访问主节点。它们通常是网络连接问题或 Amazon 依赖问题造成的。 相关统计数据:Maximum |
MasterSysMemoryUtilization |
使用中的主节点内存的百分比。 相关统计数据:Maximum |
专用协调器节点指标
Amazon S OpenSearch ervice 为专用协调器节点提供以下指标。
指标 | 描述 |
---|---|
CoordinatorCPUUtilization |
专用协调器节点使用CPU资源的最大百分比。建议在此指标达到 80% 时增加实例类型的大小。 相关统计数据:Maximum |
CoordinatorJVMMemoryPressure |
用于集群中所有专用协调器节点的 Java 堆的最大百分比。建议在此指标达到 85% 时迁移到更大的实例类型。 相关统计数据:Maximum |
CoordinatorOldGenJVMMemoryPressure |
每个主节点上用于“上一代”的 Java 堆的最大百分比。 相关统计数据:Maximum |
CoordinatorSysMemoryUtilization |
使用中的协调器节点内存的百分比。 相关统计数据:Maximum |
CoordinatorFreeStorageSpace |
该指标指示服务未将协调器节点作为数据节点使用。 |
EBS交易量指标
Amazon OpenSearch 服务提供以下EBS交易量指标。
指标 | 描述 |
---|---|
ReadLatency |
对EBS卷进行读取操作的延迟(以秒为单位)。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
WriteLatency |
对EBS卷进行写入操作的延迟(以秒为单位)。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
ReadThroughput |
对EBS卷进行读取操作的吞吐量,以每秒字节数为单位。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
ReadThroughputMicroBursting |
考虑微爆 相关统计数据:最小值、最大值、平均值 |
WriteThroughput |
EBS卷上写入操作的吞吐量,以每秒字节数为单位。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
WriteThroughputMicroBursting |
考虑微爆 相关统计数据:最小值、最大值、平均值 |
DiskQueueDepth |
EBS卷的待处理输入和输出 (I/O) 请求数。 相关统计数据:最小值、最大值、平均值 |
ReadIOPS |
EBS卷上读取操作每秒的输入和输出 (I/O) 操作数。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
ReadIOPSMicroBursting |
考虑微爆 相关统计数据:最小值、最大值、平均值 |
WriteIOPS |
每秒对EBS卷进行写入操作的输入和输出 (I/O) 操作数。此指标也可用于单独的节点。 相关统计数据:最小值、最大值、平均值 |
WriteIOPSMicroBursting |
考虑到微爆 相关统计数据:最小值、最大值、平均值 |
BurstBalance |
某个卷在突发存储桶中剩余的输入和输出 (I/O) EBS 积分的百分比。值为 100 表示该卷积累的积分数量已达最大数量。如果此百分比低于 70%,请参阅 EBS 可爆发容量余额低。对于具有 gp3 卷类型的域以及具有卷大小超过 1000 GiB 的 gp2 卷的域,突增余额保持在 0。 相关统计数据:最小值、最大值、平均值 |
实例指标
Amazon OpenSearch 服务为域中的每个实例提供以下指标。 OpenSearch 服务还会汇总这些实例指标,以深入了解集群的整体运行状况。您可以使用控制台中的 Sample Count(样本数)统计数据验证此行为。请注意,下表中的每个指标对于节点 和 集群都有相关的统计数据。
重要
不同版本的 Elasticsearch 使用不同的线程池来处理对的调用。_index
APIElasticsearch 1.5 和 2.3 使用索引线程池。Elasticsearch 5 x、6.0 和 6.2 使用批量线程池。 OpenSearch 而 Elasticsearch 6.3 及更高版本则使用写线程池。目前, OpenSearch 服务控制台不包含批量线程池的图表。
使用 GET _cluster/settings?include_defaults=true
来检查集群的线程池和队列大小。
指标 | 描述 |
---|---|
ConcurrentSearchRate |
数据节点上所有分片每分钟使用并发分段搜索的搜索请求总数。对的单个调用 相关节点统计数据:Average 相关集群统计数据:Average、Maximum、Sum |
ConcurrentSearchLatency |
在 N 分钟和 (N-1) 分钟之间,节点中使用并发分段搜索的所有搜索的总时间差(以毫秒为单位)。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
IndexingLatency |
节点中所有索引操作所用的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
IndexingRate |
每分钟的索引操作数。对添加两个文档并更新两个文档 相关节点统计数据:Average 相关集群统计数据:Average、Maximum、Sum |
SearchLatency |
节点中所有搜索的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
SearchRate |
数据节点上所有分片的每分钟搜索请求总数。对的单个调用 相关节点统计数据:Average 相关集群统计数据:Average、Maximum、Sum |
SegmentCount |
数据节点上的分段数。您拥有的区段越多,每次搜索所需的时间就越长。 OpenSearch 偶尔会将较小的片段合并为一个较大的片段。 相关节点统计数据:最大值、平均值 相关集群统计数据:Sum、Maximum、Average |
SysMemoryUtilization |
使用中的实例内存的百分比。此指标的值较高是正常的,通常不表示集群存在问题。有关潜在性能和稳定性问题的更好指示,请参阅 相关节点统计数据:Minimum、Maximum、Average 相关集群统计数据:Minimum、Maximum、Average |
JVMGCYoungCollectionCount |
“年轻代”垃圾回收的运行次数。大量不断增长的运行数对于集群操作来说是正常的。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
JVMGCYoungCollectionTime |
集群执行“年轻代”垃圾回收所花费的时间,以毫秒为单位。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
JVMGCOldCollectionCount |
“年老代”垃圾回收的运行次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
JVMGCOldCollectionTime |
集群执行“年老代”垃圾回收所花费的时间,以毫秒为单位。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
OpenSearchDashboardsConcurrentConnections |
与 OpenSearch仪表板的活跃并发连接数。如果此数字始终很高,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
OpenSearchDashboardsHealthyNode |
单个 OpenSearch 仪表板节点的运行状况检查。值为 1 表示行为正常。值为 0 表示无法访问控制面板。 相关节点统计数据:最小值 相关集群统计数据:Minimum、Maximum、Average |
OpenSearchDashboardsHeapTotal |
分配给 OpenSearch 仪表板的堆内存量,以 MiB 为单位。不同的EC2实例类型可能会影响确切的内存分配。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
OpenSearchDashboardsHeapUsed |
OpenSearch 仪表板使用的绝对堆内存量,以 MiB 为单位。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
OpenSearchDashboardsHeapUtilization |
OpenSearch仪表板使用的可用堆内存的最大百分比。如果此值超过 80%,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Minimum、Maximum、Average |
OpenSearchDashboardsOS1MinuteLoad |
OpenSearch 仪表板的一分钟平均CPU负载。理想情况下,CPU负载应保持在 1.00 以下。虽然临时峰值很好,但如果此指标始终高于 1.00,我们建议增加实例类型的大小。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
OpenSearchDashboardsRequestTotal |
向 OpenSearch 仪表板发出的HTTP请求总数。如果您的系统速度较慢,或者您看到大量的控制面板请求,请考虑增加实例类型的大小。 相关节点统计数据:总计 相关集群统计数据:Sum |
OpenSearchDashboardsResponseTimesMaxInMillis |
OpenSearch 仪表板响应请求所需的最大时间(以毫秒为单位)。如果请求一直花费很长时间才能返回结果,请考虑增加实例类型的大小。 相关节点统计数据:Maximum 相关集群统计数据:最大值、平均值 |
SearchTaskCancelled |
协调器节点取消的次数。 相关节点统计数据:总计 相关集群统计数据:Sum |
SearchShardTaskCancelled |
数据节点取消的次数。 相关节点统计数据:总计 相关集群统计数据:Sum |
ThreadpoolForce_mergeQueue |
强制合并线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolForce_mergeRejected |
强制合并线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolForce_mergeThreads |
强制合并线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolIndexQueue |
索引线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。索引队列的最大大小为 200。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolIndexRejected |
索引线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolIndexThreads |
索引线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolSearchQueue |
搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。搜索队列的最大大小为 1000。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolSearchRejected |
搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolSearchThreads |
搜索线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
Threadpoolsql-workerQueue |
SQL搜索线程池中排队的任务数。如果队列大小一直很大,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
Threadpoolsql-workerRejected |
SQL搜索线程池中被拒绝的任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
Threadpoolsql-workerThreads |
SQL搜索线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolBulkQueue |
批量线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolBulkRejected |
批量线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolBulkThreads |
批量线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolIndexSearcherQueue |
索引搜索器线程池中已排队的任务数。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
ThreadpoolIndexSearcherRejected |
索引搜索器线程池中已拒绝的任务数。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
ThreadpoolIndexSearcherThreads |
索引搜索器线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolWriteThreads |
写入线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolWriteQueue |
写入线程池中的排队任务数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
ThreadpoolWriteRejected |
写入线程池中的已拒绝任务数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum 注意由于在 7.1 版本中,默认写入队列大小从 200 增加到 10000,因此该指标不再是服务拒绝的唯一指标。 OpenSearch 使用 |
CoordinatingWriteRejected |
自上次启动 OpenSearch 服务进程以来,由于索引压力,协调节点上发生的拒绝总数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum 此指标在版本 7.1 及更高版本中可用。 |
PrimaryWriteRejected |
自上次启动 OpenSearch 服务进程以来,由于索引压力,主分片上发生的拒绝总数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum 此指标在版本 7.1 及更高版本中可用。 |
ReplicaWriteRejected |
自上次启动 OpenSearch 服务进程以来,由于索引压力,副本分片上发生的拒绝总数。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum 此指标在版本 7.1 及更高版本中可用。 |
UltraWarm 指标
Amazon OpenSearch 服务为UltraWarm节点提供以下指标。
指标 | 描述 |
---|---|
WarmCPUUtilization |
集群中 UltraWarm 节点的CPU使用百分比。最大值显示CPU使用率最高的节点。平均值表示集群中的所有 UltraWarm 节点。此指标也适用于单个 UltraWarm 节点。 相关统计数据:Maximum、Average |
WarmFreeStorageSpace |
以 MiB 为单位的可用温存储空间量。因为 UltraWarm使用 Amazon S3 而不是连接的磁盘,所以 相关统计数据:总计 |
WarmSearchableDocuments |
跨集群中所有温索引的可搜索文档总数。您必须保留一分钟的时间来获取准确值。 相关统计数据:总计 |
WarmSearchLatency
|
在 N 分钟到分钟 (N-1) UltraWarm 之间所有搜索的总时间差,以毫秒为单位。 相关节点统计数据:Average 相关集群统计数据:Average、Maximum |
WarmSearchRate
|
UltraWarm 节点上所有分片每分钟搜索请求的总数。对的单个调用 相关节点统计数据:Average 相关集群统计数据:Average、Maximum、Sum |
WarmStorageSpaceUtilization |
集群使用的温存储空间总量。 相关统计数据:Maximum |
HotStorageSpaceUtilization
|
集群使用的热存储空间总量。 相关统计数据:Maximum |
WarmSysMemoryUtilization |
使用中的温节点内存的百分比。 相关统计数据:Maximum |
HotToWarmMigrationQueueSize
|
当前等待从热存储迁移到温存储的索引数。 相关统计数据:Maximum |
WarmToHotMigrationQueueSize
|
当前等待从温存储迁移到热存储的索引数。 相关统计数据:Maximum |
HotToWarmMigrationFailureCount
|
从热迁移到温迁移失败的总数。 相关统计数据:总计 |
HotToWarmMigrationForceMergeLatency
|
迁移过程的强制合并阶段的平均延迟时间。如果这个阶段始终需要太长时间,请考虑增加 相关统计数据:Average |
HotToWarmMigrationSnapshotLatency
|
迁移过程快照阶段的平均延迟时间。如果此阶段始终花费太长时间,请确保分区的大小适当,并在整个集群中分布。 相关统计数据:Average |
HotToWarmMigrationProcessingLatency
|
成功从热迁移到温迁移的平均延迟时间,不包括队列中花费的时间。此值是完成迁移过程的强制合并、快照和分区重新定位阶段所需的时间总和。 相关统计数据:Average |
HotToWarmMigrationSuccessCount
|
成功从热迁移到温迁移的总数。 相关统计数据:总计 |
HotToWarmMigrationSuccessLatency
|
成功从热迁移到温迁移的平均延迟时间,包括在队列中花费的时间。 相关统计数据:Average |
WarmThreadpoolSearchThreads |
UltraWarm 搜索线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Average、Sum |
WarmThreadpoolSearchRejected |
UltraWarm 搜索线程池中被拒绝的任务数。如果这个数字持续增长,可以考虑添加更多 UltraWarm节点。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
WarmThreadpoolSearchQueue |
UltraWarm 搜索线程池中排队的任务数。如果队列大小一直很高,可以考虑添加更多 UltraWarm节点。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
WarmJVMMemoryPressure |
用于 UltraWarm节点的 Java 堆的最大百分比。 相关统计数据:Maximum 注意在服务软件 R20220323 中更改了此指标的逻辑。有关更多信息,请参阅版本注释。 |
WarmOldGenJVMMemoryPressure |
每个 UltraWarm 节点用于 “旧一代” 的 Java 堆的最大百分比。 相关统计数据:Maximum |
WarmJVMGCYoungCollectionCount |
“年轻一代” 垃圾收集在 UltraWarm 节点上运行的次数。大量不断增长的运行数对于集群操作来说是正常的。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
WarmJVMGCYoungCollectionTime |
集群在节点上执行 “年轻一代” 垃圾收集所花费的时间,以毫秒为单位。 UltraWarm 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
WarmJVMGCOldCollectionCount |
“老一代” 垃圾收集在 UltraWarm 节点上运行的次数。在具有足够资源的集群中,此数字应保持很小并且不会频繁增长。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
WarmConcurrentSearchRate |
使用每分钟并发分段搜索的 UltraWarm 节点上所有分片的搜索请求总数。对的单个调用 相关节点统计数据:Average 相关集群统计数据:Sum、Maximum、Average |
WarmConcurrentSearchLatency |
在分钟 N 和分钟 (N-1) 之间的 UltraWarm 节点中使用并发分段搜索进行的所有搜索所得的总时间差,以毫秒为单位。 相关节点统计数据:Average 相关集群统计数据:最大值、平均值 |
WarmThreadpoolIndexSearcherQueue |
UltraWarm 索引搜索器线程池中排队的任务数。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Maximum、Average |
WarmThreadpoolIndexSearcherRejected |
UltraWarm 索引搜索器线程池中被拒绝的任务数。 相关节点统计数据:Maximum 相关集群统计数据:Sum |
WarmThreadpoolIndexSearcherThreads |
UltraWarm 索引搜索器线程池的大小。 相关节点统计数据:Maximum 相关集群统计数据:Sum、Average |
冷存储指标
Amazon OpenSearch 服务提供以下冷存储指标。
指标 | 描述 |
---|---|
ColdStorageSpaceUtilization
|
集群使用的冷存储空间总量,以 MiB 为单位。 相关统计数据:最大值 |
ColdToWarmMigrationFailureCount |
从冷到温迁移失败的总数。 相关统计数据:总计 |
ColdToWarmMigrationLatency |
成功完成冷到温迁移所需的时间量。 相关统计数据:Average |
ColdToWarmMigrationQueueSize |
当前等待从冷存储迁移到温存储的索引数。 相关统计数据:Maximum |
ColdToWarmMigrationSuccessCount
|
成功从冷到温迁移的总数。 相关统计数据:总计 |
WarmToColdMigrationFailureCount
|
从温到冷迁移失败的总数。 相关统计数据:总计 |
WarmToColdMigrationLatency |
成功完成温到冷迁移的时间量。 相关统计数据:Average |
WarmToColdMigrationQueueSize |
当前等待从温存储迁移到冷存储的索引数。 相关统计数据:Maximum |
WarmToColdMigrationSuccessCount |
成功从温到冷迁移的总数。 相关统计数据:总计 |
OR1指标
Amazon OpenSearch 服务为OR1实例提供以下指标。
指标 | 描述 |
---|---|
RemoteStorageUsedSpace
|
集群使用的 Amazon S3 空间总量(单位为 MiB)。 相关统计数据:总计 |
RemoteStorageWriteRejected |
由于远程存储和复制压力而在主分片上被拒绝的请求总数。这是从上次启动 OpenSearch 服务进程开始计算的。 相关统计数据:总计 |
ReplicationLagMaxTime |
副本分片相比主分片的滞后时间大小(以毫秒为单位)。 相关统计数据:Maximum |
提醒指标
Amazon OpenSearch 服务提供以下警报指标。
指标 | 描述 |
---|---|
AlertingDegraded |
值为 1 表示警报索引为红色,或一个或多个节点未按计划运行。值为 0 表示行为正常。 相关统计数据:Maximum |
AlertingIndexExists |
值为 1 表示 相关统计数据:Maximum |
AlertingIndexStatus.green |
索引的运行状况。值为 1 表示绿色。值为 0 表示索引不存在或不是绿色。 相关统计数据:Maximum |
AlertingIndexStatus.red |
索引的运行状况。值为 1 表示红色。值为 0 表示索引不存在或不是红色。 相关统计数据:Maximum |
AlertingIndexStatus.yellow |
索引的运行状况。值为 1 表示黄色。值为 0 表示索引不存在或不是黄色。 相关统计数据:Maximum |
AlertingNodesNotOnSchedule |
值为 1 表示某些作业未按计划运行。值为 0 表示所有警报作业都按计划运行(或警报作业不存在)。检查 OpenSearch 服务控制台或 相关统计数据:Maximum |
AlertingNodesOnSchedule |
值为 1 表示所有警报作业都按计划运行(或警报作业不存在)。值为 0 表示某些作业未按计划运行。 相关统计数据:Maximum |
AlertingScheduledJobEnabled |
值为 1 表示 相关统计数据:Maximum |
异常检测指标
Amazon OpenSearch 服务提供以下异常检测指标。
指标 | 描述 |
---|---|
ADPluginUnhealthy |
值为 1 表示异常检测插件无法正常工作,或者因为故障次数太多,或者因为它使用了一个红色的索引。值为 0 表示插件正按预期工作。 相关统计数据:Maximum |
ADExecuteRequestCount |
检测异常的请求数。 相关统计数据:总计 |
ADExecuteFailureCount
|
检测异常的失败请求数。 相关统计数据:总计 |
ADHCExecuteFailureCount |
检测高基数探测器异常的失败请求数。 相关统计数据:总计 |
ADHCExecuteRequestCount |
检测高基数探测器异常的请求数。 相关统计数据:总计 |
ADAnomalyResultsIndexStatusIndexExists |
值为 1 表示 相关统计数据:Maximum |
ADAnomalyResultsIndexStatus.red |
值为 1 表示 相关统计数据:Maximum |
ADAnomalyDetectorsIndexStatusIndexExists |
值为 1 表示 相关统计数据:Maximum |
ADAnomalyDetectorsIndexStatus.red |
值为 1 表示 相关统计数据:Maximum |
ADModelsCheckpointIndexStatusIndexExists |
值为 1 表示 相关统计数据:Maximum |
ADModelsCheckpointIndexStatus.red |
值为 1 表示 相关统计数据:Maximum |
异步搜索指标
Amazon OpenSearch 服务为异步搜索提供了以下指标。
异步搜索协调器节点统计数据(每个协调器节点)
指标 | 描述 |
---|---|
AsynchronousSearchSubmissionRate |
过去 1 分钟内提交的异步搜索数。 |
AsynchronousSearchInitializedRate |
过去 1 分钟内初始化的异步搜索数。 |
AsynchronousSearchRunningCurrent |
当前正在运行的异步搜索数。 |
AsynchronousSearchCompletionRate |
过去 1 分钟内成功完成的异步搜索数。 |
AsynchronousSearchFailureRate |
最后一分钟内完成和失败的异步搜索数。 |
AsynchronousSearchPersistRate |
过去 1 分钟内持续存在的异步搜索数。 |
AsynchronousSearchPersistFailedRate |
最后一分钟内失败的异步搜索数。 |
AsynchronousSearchRejected |
自节点启动时间以来拒绝的异步搜索总数。 |
AsynchronousSearchCancelled |
自节点启动时间以来取消的异步搜索总数。 |
AsynchronousSearchMaxRunningTime |
最后一分钟内节点上运行时间最长的异步搜索的持续时间。 |
异步搜索集群统计数据
指标 | 描述 |
---|---|
AsynchronousSearchStoreHealth |
最后一分钟存储在持久索引 (RED/non-RED) 中的运行状况。 |
AsynchronousSearchStoreSize |
过去 1 分钟内跨所有分区的系统索引大小。 |
AsynchronousSearchStoredResponseCount |
过去 1 分钟内系统索引中存储的响应数。 |
自动调整指标
亚马逊 OpenSearch 服务为自动调整提供了以下指标。
指标 | 描述 |
---|---|
AutoTuneChangesHistoryHeapSize |
堆大小调整值的更改历史记录(以 MiB 为单位)。 |
AutoTuneChangesHistoryJVMYoungGenArgs |
JVM YongGen 参数的变更历史记录。 |
AutoTuneFailed |
用于指示自动调整更改失败的布尔值。 |
AutoTuneSucceeded |
用于指示自动调整更改成功的布尔值。 |
AutoTuneValue |
无中断更改的队列更改历史记录(计数)和缓存调整更改历史记录(以 MiB 为单位)。 |
带待机功能的多可用区指标
Amazon S OpenSearch ervice 为带备用模式的多可用区提供了以下指标。
活动的可用区中数据节点的节点-级别指标
指标 | 描述 |
---|---|
CPUUtilization |
集群中数据节点的CPU使用百分比。最大值显示CPU使用率最高的节点。平均值表示集群中的所有节点。此指标也可用于单独的节点。 |
FreeStorageSpace |
集群中各数据节点的可用空间。 OpenSearch 服务控制台以 GiB 为单位显示此值。Amazon CloudWatch 控制台以 MiB 为单位显示它。 |
JVMMemoryPressure |
用于集群中所有数据节点的 Java 堆的最大百分比。 OpenSearch 服务将一半的实例用RAM于 Java 堆,堆大小不超过 32 GiB。您可以将实例垂直扩展到 64 GiBRAM,此时您可以通过添加实例进行水平扩展。请参阅 Amazon OpenSearch 服务的推荐 CloudWatch 警报。 |
SysMemoryUtilization |
使用中的实例内存的百分比。此指标的值较高是正常的,通常不表示集群存在问题。有关潜在性能和稳定性问题的更好指示,请参阅 JVMMemoryPressure 指标。 |
IndexingLatency |
节点中所有索引操作所用的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。 |
IndexingRate |
每分钟的索引操作数。 |
SearchLatency |
节点中所有搜索的总时间差(以毫秒为单位),介于 N 分钟和 (N-1) 分钟之间。 |
SearchRate |
数据节点上所有分片的每分钟搜索请求总数。 |
ThreadpoolSearchQueue |
搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群。搜索队列的最大大小为 1000。 |
ThreadpoolWriteQueue |
写入线程池中的排队任务数。 |
ThreadpoolSearchRejected |
搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群。 |
ThreadpoolWriteRejected |
写入线程池中的已拒绝任务数。 |
活动的可用区中集群-级别指标
指标 | 描述 |
---|---|
DataNodes |
活动分片和备用分片的总数。 |
DataNodesShards.active |
活动主分区和副本分区的总数。 |
DataNodesShards.unassigned |
未分配给集群中节点的分区数。 |
DataNodesShards.initializing |
正在初始化的分区数。 |
DataNodesShards.relocating |
正在重新定位的分区数。 |
可用区轮换指标
如果是 ActiveReads.
,则该区处于活动状态。如果是 Availability-Zone
= 1ActiveReads.
,则该区处于待机状态。Availability-Zone
=
0
时间点指标
亚马逊 OpenSearch 服务为时间点 (PIT) 搜索提供以下指标。
PIT协调器节点统计信息(每个协调器节点)
指标 | 描述 |
---|---|
CurrentPointInTime |
节点中活跃PIT搜索上下文的数量。 |
TotalPointInTime |
自节点启动以来过期PIT搜索上下文的数量。 |
AvgPointInTimeAliveTime |
自节点启动时间以来,PIT搜索上下文的平均保持活动状态。 |
HasActivePointInTime |
值为 1 表示自节点启动以来节点上存在活动PIT上下文。值 0 表示没有。 |
HasUsedPointInTime |
值为 1 表示自节点启动以来节点上存在过期的PIT上下文。值 0 表示没有。 |
SQL指标
Amazon OpenSearch 服务提供以下SQL支持指标。
指标 | 描述 |
---|---|
SQLFailedRequestCountByCusErr |
由于客户端问题 相关统计数据:总计 |
SQLFailedRequestCountBySysErr |
由于服务器问题或功能限制 相关统计数据:总计 |
SQLRequestCount |
向的请求数 相关统计数据:总计 |
SQLDefaultCursorRequestCount |
类似于 相关统计数据:总计 |
SQLUnhealthy |
值为 1 表示在响应某些请求时,SQL插件正在返回 5 xx 响应代码或DSL向传递无效查询 OpenSearch。其他请求将继续成功。值为 0 表示最近未失败。如果您看到持续值为 1,请排查您的客户端对插件发出的请求的问题。 相关统计数据:Maximum |
k-NN 指标
亚马逊 OpenSearch 服务包含 k 最近邻 (k-nn) 插件的以下指标。
指标 | 描述 |
---|---|
KNNCacheCapacityReached |
每节点指标,用于是否已达到缓存容量。此指标仅与近似 k-NN 搜索相关。 相关统计数据:Maximum |
KNNCircuitBreakerTriggered |
每个集群指标,用于是否触发断路器。如果任何节点返回 相关统计数据:Maximum |
KNNEvictionCount |
由于内存限制或空闲时间而从缓存中移出的图形数的每节点指标。不计入由于索引删除而发生的显式移出。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNGraphIndexErrors |
每节点指标,用于将文档的 相关统计数据:总计 |
KNNGraphIndexRequests |
每节点指标,用于将文档的 相关统计数据:总计 |
KNNGraphMemoryUsage |
当前缓存大小(内存中所有图形的总大小)的每节点指标(以千字节为单位)。此指标仅与近似 k-NN 搜索相关。 相关统计数据:Average |
KNNGraphQueryErrors |
产生错误的图形查询数的每节点指标。 相关统计数据:总计 |
KNNGraphQueryRequests |
图形查询次数的每节点指标。 相关统计数据:总计 |
KNNHitCount |
缓存命中次数的每节点指标。当用户查询已加载到内存中的图形时,会发生缓存命中。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNLoadExceptionCount |
尝试将图形加载到缓存时发生异常次数的每节点指标。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNLoadSuccessCount |
每节点指标,用于插件将图形成功加载到缓存中的次数。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNMissCount |
缓存未命中次数的每节点指标。当用户查询尚未加载到内存中的图形时,会发生缓存未命中。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
KNNQueryRequests |
k-NN 插件收到的查询请求数的每节点指标。 相关统计数据:总计 |
KNNScriptCompilationErrors |
每节点指标,用于脚本编译过程中的错误数。此统计数据仅与 k-NN 分数脚本搜索相关。 相关统计数据:总计 |
KNNScriptCompilations |
每节点指标,用于编译 k-NN 脚本的次数。此值通常应为 1 或 0,但是如果包含已编译脚本的缓存已填充,k-NN 脚本可能会重新编译。此统计数据仅与 k-NN 分数脚本搜索相关。 相关统计数据:总计 |
KNNScriptQueryErrors |
脚本查询过程中错误数的每节点指标。此统计数据仅与 k-NN 分数脚本搜索相关。 相关统计数据:总计 |
KNNScriptQueryRequests |
脚本查询总数的每节点指标。此统计数据仅与 k-NN 分数脚本搜索相关。 相关统计数据:总计 |
KNNTotalLoadTime |
k-NN 将图形加载到缓存中所花费的时间(以纳秒为单位)。此指标仅与近似 k-NN 搜索相关。 相关统计数据:总计 |
跨集群搜索指标
Amazon OpenSearch 服务为跨集群搜索提供了以下指标。
源域指标
指标 | 维度 | 描述 |
---|---|---|
CrossClusterOutboundConnections |
|
连接的节点数。如果响应中包含一个或多个跳过的域,则可使用此指标跟踪任何运行状况不佳的连接。如果此数值降至 0,则连接运行状况不佳。 |
CrossClusterOutboundRequests |
|
发送到目标域的搜索请求数。用于检查跨集群搜索请求的负载是否使您的域名不堪重负,将此指标中的任何峰值与任何JVM/CPU峰值相关联。 |
目标域指标
指标 | 维度 | 描述 |
---|---|---|
CrossClusterInboundRequests |
|
从源域接收的传入连接请求数。 |
添加 CloudWatch 警报,以防您意外断开连接。有关创建警报的步骤,请参阅基于静态阈值创建 CloudWatch警报。
跨集群复制指标
Amazon OpenSearch 服务为跨集群复制提供了以下指标。
指标 | 描述 |
---|---|
ReplicationRate |
每秒复制操作的平均速率。该指标与 |
LeaderCheckPoint |
对于某个特定连接,涵盖所有复制索引的领导者索引检查点值的和。您可以使用此指标来度量复制延迟。 |
FollowerCheckPoint |
对于某个特定连接,涵盖所有复制索引的跟随者索引检查点值的和。您可以使用此指标来度量复制延迟。 |
ReplicationNumSyncingIndices |
复制状态为 |
ReplicationNumBootstrappingIndices |
复制状态为 |
ReplicationNumPausedIndices |
复制状态为 |
ReplicationNumFailedIndices |
复制状态为 |
|
关注者域上的复制传输请求数。传输请求是内部的,每次调用复制API操作时都会发生。当关注者域轮询领导者域的变更时,也会发生这些请求。 |
|
领导者域上的复制传输请求数。传输请求是内部的,每次调用复制API操作时都会发生。 |
AutoFollowNumSuccessStartReplication |
特定连接的复制规则已成功创建的跟随者索引的数量。 |
AutoFollowNumFailedStartReplication |
存在匹配模式时,复制规则未能创建的跟随者索引的数量。出现此问题的原因可能是远程集群上的网络问题或安全问题(即关联的角色不具有启动复制的权限)。 |
AutoFollowLeaderCallFailure |
从跟随者索引到领导者索引的提取新数据的查询是否有任何失败。值为 |
学习排名指标
Amazon OpenSearch 服务为学习排名提供了以下指标。
指标 | 描述 |
---|---|
LTRRequestTotalCount |
排名请求的总计数。 |
LTRRequestErrorCount |
不成功请求的总计数。 |
LTRStatus.red |
跟踪运行插件所需的索引之一是否为红色。 |
LTRMemoryUsage |
插件使用的总内存。 |
LTRFeatureMemoryUsageInBytes |
学习排名功能字段使用的内存量(以字节为单位)。 |
LTRFeaturesetMemoryUsageInBytes |
所有学习排名功能集使用的内存量(以字节为单位)。 |
LTRModelMemoryUsageInBytes |
所有学习排名模型使用的内存量(以字节为单位)。 |
管道处理语言指标
Amazon OpenSearch 服务为管道处理语言提供了以下指标。
指标 | 描述 |
---|---|
PPLFailedRequestCountByCusErr |
由于客户端问题 |
PPLFailedRequestCountBySysErr |
由于服务器问题或功能限制 |
PPLRequestCount |
向的请求数 |