监控管道指标 - 亚马逊 OpenSearch 服务
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控管道指标

您可以使用 Amazon CloudWatch 监控 Amazon OpenSearch Ingestion。Amazon CloudWatch 会收集原始数据并将其处理为易读且近乎实时的指标。这些统计数据会保存 15 个月,从而使您能够访问历史信息,并能够更好地了解您的 Web 应用程序或服务的执行情况。此外,可以设置用于监测特定阈值的警报,并在达到相应阈值时发送通知或执行操作。有关更多信息,请参阅 Amazon CloudWatch 用户指南

OpenSearch Ingestion 控制台在每个管道的性能选项卡上显示一系列基于 CloudWatch 原始数据的图表。

OpenSearch Ingestion 将报告绝大多数支持插件的指标。如果特定插件下方未显示专属表,则意味着插件未报告任何特定于插件的指标。管道指标发布在 AWS/OSIS 命名空间中。

通用指标

以下指标适用于所有处理器和接收器。

每个指标均以子管道名称和插件名称为前缀,格式为 <sub_pipeline_name><plugin><metric_name>。例如,名为 my-pipeline 的子管道的 recordsIn.count 指标和日期处理器的全名为 my-pipeline.date.recordsIn.count

指标后缀 描述
recordsIn.count

记录进入管道组件的入口。此指标适用于处理器和接收器。

相关统计数据:总计

维度PipelineName

recordsOut.count

从管道组件输出记录的出口。此指标适用于处理器和源。

相关统计数据:总计

维度PipelineName

timeElapsed.count

执行管道组件期间记录的数据点计数。此指标适用于处理器和接收器。

相关统计数据:总计

维度PipelineName

timeElapsed.sum

执行管道组件花费的总时间。此指标适用于处理器和接收器(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

timeElapsed.max

执行管道组件花费的最长时间。此指标适用于处理器和接收器(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

缓冲区指标

以下指标适用于 OpenSearch Ingestion 为所有管道自动配置的默认有界阻塞缓冲区。

每个指标均以子管道名称和缓冲区名称为前缀,格式为 <sub_pipeline_name><buffer_name><metric_name>。例如,名为 my-pipeline 的子管道的 recordsWritten.count 指标的全名为 my-pipeline.BlockingBuffer.recordsWritten.count

指标后缀 描述
recordsWritten.count

写入缓冲区的记录数。

相关统计数据:总计

维度PipelineName

recordsRead.count

从缓冲区读取的记录数。

相关统计数据:总计

维度PipelineName

recordsInFlight.value

从缓冲区读取的未检查记录数。

相关统计数据:Average

维度PipelineName

recordsInBuffer.value

缓冲区当前包含的记录数。

相关统计数据:Average

维度PipelineName

recordsProcessed.count

从缓冲区读取并由管道处理的记录数。

相关统计数据:总计

维度PipelineName

recordsWriteFailed.count

管道无法写入接收器的记录数。

相关统计数据:总计

维度PipelineName

writeTimeElapsed.count

写入缓冲区时记录的数据点计数。

相关统计数据:总计

维度PipelineName

writeTimeElapsed.sum

写入缓冲区花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

writeTimeElapsed.max

写入缓冲区花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

writeTimeouts.count

缓冲区写入超时计数。

相关统计数据:总计

维度PipelineName

readTimeElapsed.count

从缓冲区读取时记录的数据点计数。

相关统计数据:总计

维度PipelineName

readTimeElapsed.sum

从缓冲区读取花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

readTimeElapsed.max

从缓冲区读取花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

checkpointTimeElapsed.count

检查点时记录的数据点计数。

相关统计数据:总计

维度PipelineName

checkpointTimeElapsed.sum

检查点花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

checkpointTimeElapsed.max

检查点花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

Signature V4 指标

以下指标适用于管道摄取端点,并与源插件(httpotel_traceotel_metrics)相关联。向摄取端点发送的所有请求必须使用 Signature 版本 4 签名。这些指标有助于您在连接管道时识别授权问题,或者确认是否已成功进行身份验证。

每个指标均以子管道名称和 osis_sigv4_auth 为前缀。例如,sub_pipeline_name.osis_sigv4_auth.httpAuthSuccess.count

指标后缀 描述
httpAuthSuccess.count

向管道发送的成功 Signature V4 请求数。

相关统计数据:总计

维度PipelineName

httpAuthFailure.count

向管道发送的失败 Signature V4 请求数。

相关统计数据:总计

维度PipelineName

httpAuthServerError.count

向管道发送并返回服务器错误的 Signature V4 请求数。

相关统计数据:总计

维度PipelineName

有界阻塞缓冲区指标

以下指标适用于有界阻塞缓冲区。每个指标均以子管道名称和 BlockingBuffer 为前缀。例如,sub_pipeline_name.BlockingBuffer.bufferUsage.value

指标后缀 描述
bufferUsage.value

基于缓冲区记录数计算得出的 buffer_size 使用率。buffer_size 表示写入缓冲区的最大记录数以及正在进行的未检查最大记录数。

相关统计数据:Average

维度PipelineName

Otel 跟踪源指标

以下指标适用于 OTel 跟踪源。每个指标均以子管道名称和 otel_trace_source 为前缀。例如,sub_pipeline_name.otel_trace_source.requestTimeouts.count

指标后缀 描述
requestTimeouts.count

超时请求数。

相关统计数据:总计

维度PipelineName

requestsReceived.count

插件收到的请求数。

相关统计数据:总计

维度PipelineName

successRequests.count

插件已成功处理的请求数。

相关统计数据:总计

维度PipelineName

badRequests.count

插件已处理的无效格式请求数。

相关统计数据:总计

维度PipelineName

requestsTooLarge.count

内容中的 span 数大于缓冲区容量的请求数。

相关统计数据:总计

维度PipelineName

internalServerError.count

采用自定义异常类型的插件处理的请求数。

相关统计数据:总计

维度PipelineName

requestProcessDuration.count

插件处理请求时记录的数据点计数。

相关统计数据:总计

维度PipelineName

requestProcessDuration.sum

插件处理的请求的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.max

插件处理的请求的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

payloadSize.count

传入请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.sum

传入请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.max

传入请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

Otel 指标源指标

以下指标适用于 OTel 指标源。每个指标均以子管道名称和 otel_metrics_source 为前缀。例如,sub_pipeline_name.otel_metrics_source.requestTimeouts.count

指标后缀 描述
requestTimeouts.count

超时插件请求总数。

相关统计数据:总计

维度PipelineName

requestsReceived.count

插件收到的请求总数。

相关统计数据:总计

维度PipelineName

successRequests.count

插件成功处理(200 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

requestProcessDuration.count

插件处理的请求的延迟计数(以秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.sum

插件处理的请求的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.max

插件处理的请求的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

payloadSize.count

传入请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.sum

传入请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.max

传入请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

Http 指标

以下指标适用于 HTTP 源。每个指标均以子管道名称和 http 为前缀。例如,sub_pipeline_name.http.requestsReceived.count

指标后缀 描述
requestsReceived.count

/log/ingest 端点收到的请求数。

相关统计数据:总计

维度PipelineName

requestsRejected.count

插件拒绝(429 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

successRequests.count

插件成功处理(200 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

badRequests.count

插件处理的内容类型或格式无效(400 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

requestTimeouts.count

HTTP 源服务器中超时(415 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

requestsTooLarge.count

内容中事件大小大于缓冲区容量(413 响应状态代码)的请求数。

相关统计数据:总计

维度PipelineName

internalServerError.count

采用自定义异常类型的插件(500 响应状态代码)处理的请求数。

相关统计数据:总计

维度PipelineName

requestProcessDuration.count

插件处理的请求的延迟计数(以秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.sum

插件处理的请求的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

requestProcessDuration.max

插件处理的请求的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

payloadSize.count

传入请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.sum

传入请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

payloadSize.max

传入请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

S3 指标

以下指标适用于 S3 源。每个指标均以子管道名称和 s3 为前缀。例如,sub_pipeline_name.s3.s3ObjectsFailed.count

指标后缀 描述
s3ObjectsFailed.count

插件无法读取的 S3 对象总数。

相关统计数据:总计

维度PipelineName

s3ObjectsNotFound.count

因 S3 Not Found错误导致插件无法读取的 S3 对象的数量。这些指标也将计入 s3ObjectsFailed 指标。

相关统计数据:总计

维度PipelineName

s3ObjectsAccessDenied.count

因 S3 Access DeniedForbidden 错误导致插件无法读取的 S3 对象的数量。这些指标也将计入 s3ObjectsFailed 指标。

相关统计数据:总计

维度PipelineName

s3ObjectReadTimeElapsed.count

插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的时间。

相关统计数据:总计

维度PipelineName

s3ObjectReadTimeElapsed.sum

插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectReadTimeElapsed.max

插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

s3ObjectSizeBytes.count

S3 对象大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectSizeBytes.sum

S3 对象大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectSizeBytes.max

S3 对象大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

s3ObjectProcessedBytes.count

插件处理的 S3 对象的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectProcessedBytes.sum

插件处理的 S3 对象的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3ObjectProcessedBytes.max

插件处理的 S3 对象的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

s3ObjectsEvents.count

插件收到的 S3 事件的分布计数。

相关统计数据:总计

维度PipelineName

s3ObjectsEvents.sum

插件收到的 S3 事件的总分布。

相关统计数据:总计

维度PipelineName

s3ObjectsEvents.max

插件收到的 S3 事件的最大分布。

相关统计数据:最大值

维度PipelineName

sqsMessageDelay.count

S3 记录创建对象的事件时间到完全解析对象所记录的数据点计数。

相关统计数据:总计

维度PipelineName

sqsMessageDelay.sum

S3 记录创建对象的事件时间到完全解析对象的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

sqsMessageDelay.max

S3 记录创建对象的事件时间到完全解析对象的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

s3ObjectsSucceeded.count

插件成功读取的 S3 对象数量。

相关统计数据:总计

维度PipelineName

sqsMessagesReceived.count

插件从队列中收到的 Amazon SQS 消息数量。

相关统计数据:总计

维度PipelineName

sqsMessagesDeleted.count

插件从队列中删除的 Amazon SQS 消息数量。

相关统计数据:总计

维度PipelineName

sqsMessagesFailed.count

插件无法解析的 Amazon SQS 消息数量。

相关统计数据:总计

维度PipelineName

聚合指标

以下指标适用于聚合处理器。每个指标均以子管道名称和 aggregate 为前缀。例如,sub_pipeline_name.aggregate.actionHandleEventsOut.count

指标后缀 描述
actionHandleEventsOut.count

对已配置操作调用 handleEvent 返回的事件数。

相关统计数据:总计

维度PipelineName

actionHandleEventsDropped.count

对已配置操作调用 handleEvent 返回的事件数。

相关统计数据:总计

维度PipelineName

actionHandleEventsProcessingErrors.count

针对导致错误的已配置操作调用 handleEvent 的次数。

相关统计数据:总计

维度PipelineName

actionConcludeGroupEventsOut.count

对已配置操作调用 concludeGroup 返回的事件数。

相关统计数据:总计

维度PipelineName

actionConcludeGroupEventsDropped.count

对已配置操作调用 condludeGroup 未返回的事件数。

相关统计数据:总计

维度PipelineName

actionConcludeGroupEventsProcessingErrors.count

针对导致错误的已配置操作调用 concludeGroup 的次数。

相关统计数据:总计

维度PipelineName

currentAggregateGroups.value

当前组数。当组结束时,此量规会减小;当事件发起创建新组时,此量规会增大。

相关统计数据:Average

维度PipelineName

日期指标

以下指标适用于日期处理器。每个指标均以子管道名称和 date 为前缀。例如,sub_pipeline_name.date.dateProcessingMatchSuccess.count

指标后缀 描述
dateProcessingMatchSuccess.count

match 配置选项中指定的至少一个模式匹配的记录数。

相关统计数据:总计

维度PipelineName

dateProcessingMatchFailure.count

match 配置选项中指定的任何模式均不匹配的记录数。

相关统计数据:总计

维度PipelineName

Grok 指标

以下指标适用于 Grok 处理器。每个指标均以子管道名称和 grok 为前缀。例如,sub_pipeline_name.grok.grokProcessingMatch.count

指标后缀 描述
grokProcessingMatch.count

match 配置选项中找到至少一个模式匹配的记录数。

相关统计数据:总计

维度PipelineName

grokProcessingMismatch.count

match 配置选项中指定的任何模式均不匹配的记录数。

相关统计数据:总计

维度PipelineName

grokProcessingErrors.count

记录处理错误数量。

相关统计数据:总计

维度PipelineName

grokProcessingTimeouts.count

匹配超时的记录数。

相关统计数据:总计

维度PipelineName

grokProcessingTime.count

当单个记录与 match 配置选项中的模式匹配时记录的数据点计数。

相关统计数据:总计

维度PipelineName

grokProcessingTime.sum

每条记录与 match 配置选项中的模式进行匹配花费的总时间(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

grokProcessingTime.max

每条记录与 match 配置选项中的模式进行匹配花费的最长时间(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

Otel 跟踪原始指标

以下指标适用于 OTel 跟踪原始处理器。每个指标均以子管道名称和 otel_trace_raw 为前缀。例如,sub_pipeline_name.otel_trace_raw.traceGroupCacheCount.value

指标后缀 描述
traceGroupCacheCount.value

跟踪组缓存中的跟踪组数量。

相关统计数据:总计

维度PipelineName

spanSetCount.value

span 集集合中的 span 集数量。

相关统计数据:总计

维度PipelineName

Otel 跟踪组指标

以下指标适用于 OTel 跟踪组处理器。每个指标均以子管道名称和 otel_trace_group 为前缀。例如,sub_pipeline_name.otel_trace_group.recordsInMissingTraceGroup.count

指标后缀 描述
recordsInMissingTraceGroup.count

缺少追踪组字段的入口记录数量。

相关统计数据:总计

维度PipelineName

recordsOutFixedTraceGroup.count

成功填充跟踪组字段的出口记录数量。

相关统计数据:总计

维度PipelineName

recordsOutMissingTraceGroup.count

缺少追踪组字段的出口记录数量。

相关统计数据:总计

维度PipelineName

服务映射有状态指标

以下指标适用于服务映射有状态处理器。每个指标均以子管道名称和 service-map-stateful 为前缀。例如,sub_pipeline_name.service-map-stateful.spansDbSize.count

指标后缀 描述
spansDbSize.value

当前窗口持续时间及上一窗口持续时间内 MapDB 中的 span 内存字节大小。

相关统计数据:Average

维度PipelineName

traceGroupDbSize.value

当前窗口持续时间及上一窗口持续时间内 MapDB 中的跟踪组内存字节大小。

相关统计数据:Average

维度PipelineName

spansDbCount.value

当前窗口持续时间及上一窗口持续时间内 MapDB 中的 span 计数。

相关统计数据:总计

维度PipelineName

traceGroupDbCount.value

当前窗口持续时间及上一窗口持续时间内 MapDB 中的跟踪组计数。

相关统计数据:总计

维度PipelineName

relationshipCount.value

当前窗口持续时间及上一窗口持续时间内存储的关系计数。

相关统计数据:总计

维度PipelineName

OpenSearch 指标

以下指标适用于 OpenSearch 接收器。每个指标均以子管道名称和 opensearch 为前缀。例如,sub_pipeline_name.opensearch.bulkRequestErrors.count

指标后缀 描述
bulkRequestErrors.count

发送批量请求时遇到的错误总数。

相关统计数据:总计

维度PipelineName

documentsSuccess.count

通过批量请求(包括重试)成功发送到 OpenSearch Service 的文档数量。

相关统计数据:总计

维度PipelineName

documentsSuccessFirstAttempt.count

首次尝试通过批量请求成功发送到 OpenSearch Service 的文档数量。

相关统计数据:总计

维度PipelineName

documentErrors.count

批量请求发送失败的文档数量。

相关统计数据:总计

维度PipelineName

bulkRequestFailed.count

失败的批量请求数量。

相关统计数据:总计

维度PipelineName

bulkRequestNumberOfRetries.count

失败批量请求的重试次数。

相关统计数据:总计

维度PipelineName

bulkBadRequestErrors.count

发送批量请求时遇到的 Bad Request 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestNotAllowedErrors.count

发送批量请求时遇到的 Request Not Allowed 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestInvalidInputErrors.count

发送批量请求时遇到的 Invalid Input 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestNotFoundErrors.count

发送批量请求时遇到的 Request Not Found 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestTimeoutErrors.count

发送批量请求时遇到的 Request Timeout 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestServerErrors.count

发送批量请求时遇到的 Server Error 错误数量。

相关统计数据:总计

维度PipelineName

bulkRequestSizeBytes.count

批量请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

bulkRequestSizeBytes.sum

批量请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

bulkRequestSizeBytes.max

批量请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

bulkRequestLatency.count

请求(包括重试)发送到插件时记录的数据点计数。

相关统计数据:总计

维度PipelineName

bulkRequestLatency.sum

发送到插件的请求(包括重试)的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

bulkRequestLatency.max

发送到插件的请求(包括重试)的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

s3.dlqS3RecordsSuccess.count

成功发送到 S3 死信队列的记录数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RecordsFailed.count

未能发送到 S3 死信队列的记录数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestSuccess.count

S3 死信队列请求成功次数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestFailed.count

S3 死信队列请求失败次数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestLatency.count

请求(包括重试)发送到 S3 死信队列时记录的数据点计数。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestLatency.sum

发送到 S3 死信队列的请求(包括重试)的总延迟(以毫秒为单位)。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestLatency.max

发送到 S3 死信队列的请求(包括重试)的最大延迟(以毫秒为单位)。

相关统计数据:最大值

维度PipelineName

s3.dlqS3RequestSizeBytes.count

S3 死信队列请求的有效负载大小的分布计数(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestSizeBytes.sum

S3 死信队列请求的有效负载大小的总分布(以字节为单位)。

相关统计数据:总计

维度PipelineName

s3.dlqS3RequestSizeBytes.max

S3 死信队列请求的有效负载大小的最大分布(以字节为单位)。

相关统计数据:最大值

维度PipelineName

系统和计量指标

以下指标适用于整个 OpenSearch Ingestion 系统。这些指标没有任何前缀。

指标 描述
system.cpu.usage.value

所有数据节点的可用 CPU 使用率。

相关统计数据:Average

维度PipelineNameareaid

system.cpu.count.value

所有数据节点的 CPU 使用总量。

相关统计数据:Average

维度PipelineNameareaid

jvm.memory.max.value

可用于内存管理的最大内存量(以字节为单位)。

相关统计数据:Average

维度PipelineNameareaid

jvm.memory.used.value

使用的内存总量(以字节为单位)。

相关统计数据:Average

维度PipelineNameareaidsigna

jvm.memory.committed.value

提供给 Java 虚拟机 (JVM) 使用的内存量(以字节为单位)。

相关统计数据:Average

维度PipelineNameareaid

computeUnits

管道正在使用的 Ingestion OpenSearch 计算单位 (Ingestion OCU) 数量。

相关统计数据:Max、Sum、Average

维度PipelineName