本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控管道指标
您可以使用 Amazon CloudWatch 监控 Amazon OpenSearch Ingestion。Amazon CloudWatch 会收集原始数据并将其处理为易读且近乎实时的指标。这些统计数据会保存 15 个月,从而使您能够访问历史信息,并能够更好地了解您的 Web 应用程序或服务的执行情况。此外,可以设置用于监测特定阈值的警报,并在达到相应阈值时发送通知或执行操作。有关更多信息,请参阅《Amazon CloudWatch 用户指南》。
OpenSearch Ingestion 控制台在每个管道的性能选项卡上显示一系列基于 CloudWatch 原始数据的图表。
OpenSearch Ingestion 将报告绝大多数支持插件的指标。如果特定插件下方未显示专属表,则意味着插件未报告任何特定于插件的指标。管道指标发布在 AWS/OSIS
命名空间中。
主题
通用指标
以下指标适用于所有处理器和接收器。
每个指标均以子管道名称和插件名称为前缀,格式为 <sub_pipeline_name
><plugin
><metric_name
>。例如,名为 my-pipeline
的子管道的 recordsIn.count
指标和日期my-pipeline.date.recordsIn.count
。
指标后缀 | 描述 |
---|---|
recordsIn.count |
记录进入管道组件的入口。此指标适用于处理器和接收器。 相关统计数据:总计 维度: |
recordsOut.count |
从管道组件输出记录的出口。此指标适用于处理器和源。 相关统计数据:总计 维度: |
timeElapsed.count |
执行管道组件期间记录的数据点计数。此指标适用于处理器和接收器。 相关统计数据:总计 维度: |
timeElapsed.sum |
执行管道组件花费的总时间。此指标适用于处理器和接收器(以毫秒为单位)。 相关统计数据:总计 维度: |
timeElapsed.max |
执行管道组件花费的最长时间。此指标适用于处理器和接收器(以毫秒为单位)。 相关统计数据:最大值 维度: |
缓冲区指标
以下指标适用于 OpenSearch Ingestion 为所有管道自动配置的默认有界阻塞
每个指标均以子管道名称和缓冲区名称为前缀,格式为 <sub_pipeline_name
><buffer_name
><metric_name
>。例如,名为 my-pipeline
的子管道的 recordsWritten.count
指标的全名为 my-pipeline.BlockingBuffer.recordsWritten.count
。
指标后缀 | 描述 |
---|---|
recordsWritten.count |
写入缓冲区的记录数。 相关统计数据:总计 维度: |
recordsRead.count |
从缓冲区读取的记录数。 相关统计数据:总计 维度: |
recordsInFlight.value |
从缓冲区读取的未检查记录数。 相关统计数据:Average 维度: |
recordsInBuffer.value |
缓冲区当前包含的记录数。 相关统计数据:Average 维度: |
recordsProcessed.count |
从缓冲区读取并由管道处理的记录数。 相关统计数据:总计 维度: |
recordsWriteFailed.count |
管道无法写入接收器的记录数。 相关统计数据:总计 维度: |
writeTimeElapsed.count |
写入缓冲区时记录的数据点计数。 相关统计数据:总计 维度: |
writeTimeElapsed.sum |
写入缓冲区花费的总时间(以毫秒为单位)。 相关统计数据:总计 维度: |
writeTimeElapsed.max |
写入缓冲区花费的最长时间(以毫秒为单位)。 相关统计数据:最大值 维度: |
writeTimeouts.count |
缓冲区写入超时计数。 相关统计数据:总计 维度: |
readTimeElapsed.count |
从缓冲区读取时记录的数据点计数。 相关统计数据:总计 维度: |
readTimeElapsed.sum |
从缓冲区读取花费的总时间(以毫秒为单位)。 相关统计数据:总计 维度: |
readTimeElapsed.max |
从缓冲区读取花费的最长时间(以毫秒为单位)。 相关统计数据:最大值 维度: |
checkpointTimeElapsed.count |
检查点时记录的数据点计数。 相关统计数据:总计 维度: |
checkpointTimeElapsed.sum |
检查点花费的总时间(以毫秒为单位)。 相关统计数据:总计 维度: |
checkpointTimeElapsed.max |
检查点花费的最长时间(以毫秒为单位)。 相关统计数据:最大值 维度: |
Signature V4 指标
以下指标适用于管道摄取端点,并与源插件(http
、otel_trace
和 otel_metrics
)相关联。向摄取端点发送的所有请求必须使用 Signature 版本 4 签名。这些指标有助于您在连接管道时识别授权问题,或者确认是否已成功进行身份验证。
每个指标均以子管道名称和 osis_sigv4_auth
为前缀。例如,
。sub_pipeline_name
.osis_sigv4_auth.httpAuthSuccess.count
指标后缀 | 描述 |
---|---|
httpAuthSuccess.count |
向管道发送的成功 Signature V4 请求数。 相关统计数据:总计 维度: |
httpAuthFailure.count |
向管道发送的失败 Signature V4 请求数。 相关统计数据:总计 维度: |
httpAuthServerError.count |
向管道发送并返回服务器错误的 Signature V4 请求数。 相关统计数据:总计 维度: |
有界阻塞缓冲区指标
以下指标适用于有界阻塞BlockingBuffer
为前缀。例如,
。sub_pipeline_name
.BlockingBuffer.bufferUsage.value
指标后缀 | 描述 |
---|---|
bufferUsage.value |
基于缓冲区记录数计算得出的 相关统计数据:Average 维度: |
Otel 跟踪源指标
以下指标适用于 OTel 跟踪otel_trace_source
为前缀。例如,
。sub_pipeline_name
.otel_trace_source.requestTimeouts.count
指标后缀 | 描述 |
---|---|
requestTimeouts.count |
超时请求数。 相关统计数据:总计 维度: |
requestsReceived.count |
插件收到的请求数。 相关统计数据:总计 维度: |
successRequests.count |
插件已成功处理的请求数。 相关统计数据:总计 维度: |
badRequests.count |
插件已处理的无效格式请求数。 相关统计数据:总计 维度: |
requestsTooLarge.count |
内容中的 span 数大于缓冲区容量的请求数。 相关统计数据:总计 维度: |
internalServerError.count |
采用自定义异常类型的插件处理的请求数。 相关统计数据:总计 维度: |
requestProcessDuration.count |
插件处理请求时记录的数据点计数。 相关统计数据:总计 维度: |
requestProcessDuration.sum |
插件处理的请求的总延迟(以毫秒为单位)。 相关统计数据:总计 维度: |
requestProcessDuration.max |
插件处理的请求的最大延迟(以毫秒为单位)。 相关统计数据:最大值 维度: |
payloadSize.count |
传入请求的有效负载大小的分布计数(以字节为单位)。 相关统计数据:总计 维度: |
payloadSize.sum |
传入请求的有效负载大小的总分布(以字节为单位)。 相关统计数据:总计 维度: |
payloadSize.max |
传入请求的有效负载大小的最大分布(以字节为单位)。 相关统计数据:最大值 维度: |
Otel 指标源指标
以下指标适用于 OTel 指标otel_metrics_source
为前缀。例如,
。sub_pipeline_name
.otel_metrics_source.requestTimeouts.count
指标后缀 | 描述 |
---|---|
requestTimeouts.count |
超时插件请求总数。 相关统计数据:总计 维度: |
requestsReceived.count |
插件收到的请求总数。 相关统计数据:总计 维度: |
successRequests.count |
插件成功处理(200 响应状态代码)的请求数。 相关统计数据:总计 维度: |
requestProcessDuration.count |
插件处理的请求的延迟计数(以秒为单位)。 相关统计数据:总计 维度: |
requestProcessDuration.sum |
插件处理的请求的总延迟(以毫秒为单位)。 相关统计数据:总计 维度: |
requestProcessDuration.max |
插件处理的请求的最大延迟(以毫秒为单位)。 相关统计数据:最大值 维度: |
payloadSize.count |
传入请求的有效负载大小的分布计数(以字节为单位)。 相关统计数据:总计 维度: |
payloadSize.sum |
传入请求的有效负载大小的总分布(以字节为单位)。 相关统计数据:总计 维度: |
payloadSize.max |
传入请求的有效负载大小的最大分布(以字节为单位)。 相关统计数据:最大值 维度: |
Http 指标
以下指标适用于 HTTPhttp
为前缀。例如,
。sub_pipeline_name
.http.requestsReceived.count
指标后缀 | 描述 |
---|---|
requestsReceived.count |
相关统计数据:总计 维度: |
requestsRejected.count |
插件拒绝(429 响应状态代码)的请求数。 相关统计数据:总计 维度: |
successRequests.count |
插件成功处理(200 响应状态代码)的请求数。 相关统计数据:总计 维度: |
badRequests.count |
插件处理的内容类型或格式无效(400 响应状态代码)的请求数。 相关统计数据:总计 维度: |
requestTimeouts.count |
HTTP 源服务器中超时(415 响应状态代码)的请求数。 相关统计数据:总计 维度: |
requestsTooLarge.count |
内容中事件大小大于缓冲区容量(413 响应状态代码)的请求数。 相关统计数据:总计 维度: |
internalServerError.count |
采用自定义异常类型的插件(500 响应状态代码)处理的请求数。 相关统计数据:总计 维度: |
requestProcessDuration.count |
插件处理的请求的延迟计数(以秒为单位)。 相关统计数据:总计 维度: |
requestProcessDuration.sum |
插件处理的请求的总延迟(以毫秒为单位)。 相关统计数据:总计 维度: |
requestProcessDuration.max |
插件处理的请求的最大延迟(以毫秒为单位)。 相关统计数据:最大值 维度: |
payloadSize.count |
传入请求的有效负载大小的分布计数(以字节为单位)。 相关统计数据:总计 维度: |
payloadSize.sum |
传入请求的有效负载大小的总分布(以字节为单位)。 相关统计数据:总计 维度: |
payloadSize.max |
传入请求的有效负载大小的最大分布(以字节为单位)。 相关统计数据:最大值 维度: |
S3 指标
以下指标适用于 S3s3
为前缀。例如,
。sub_pipeline_name
.s3.s3ObjectsFailed.count
指标后缀 | 描述 |
---|---|
s3ObjectsFailed.count |
插件无法读取的 S3 对象总数。 相关统计数据:总计 维度: |
s3ObjectsNotFound.count |
因 S3 相关统计数据:总计 维度: |
s3ObjectsAccessDenied.count |
因 S3 相关统计数据:总计 维度: |
s3ObjectReadTimeElapsed.count |
插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的时间。 相关统计数据:总计 维度: |
s3ObjectReadTimeElapsed.sum |
插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的总时间(以毫秒为单位)。 相关统计数据:总计 维度: |
s3ObjectReadTimeElapsed.max |
插件对 S3 对象执行 GET 请求、解析请求并将事件写入缓冲区花费的最长时间(以毫秒为单位)。 相关统计数据:最大值 维度: |
s3ObjectSizeBytes.count |
S3 对象大小的分布计数(以字节为单位)。 相关统计数据:总计 维度: |
s3ObjectSizeBytes.sum |
S3 对象大小的总分布(以字节为单位)。 相关统计数据:总计 维度: |
s3ObjectSizeBytes.max |
S3 对象大小的最大分布(以字节为单位)。 相关统计数据:最大值 维度: |
s3ObjectProcessedBytes.count |
插件处理的 S3 对象的分布计数(以字节为单位)。 相关统计数据:总计 维度: |
s3ObjectProcessedBytes.sum |
插件处理的 S3 对象的总分布(以字节为单位)。 相关统计数据:总计 维度: |
s3ObjectProcessedBytes.max |
插件处理的 S3 对象的最大分布(以字节为单位)。 相关统计数据:最大值 维度: |
s3ObjectsEvents.count |
插件收到的 S3 事件的分布计数。 相关统计数据:总计 维度: |
s3ObjectsEvents.sum |
插件收到的 S3 事件的总分布。 相关统计数据:总计 维度: |
s3ObjectsEvents.max |
插件收到的 S3 事件的最大分布。 相关统计数据:最大值 维度: |
sqsMessageDelay.count |
S3 记录创建对象的事件时间到完全解析对象所记录的数据点计数。 相关统计数据:总计 维度: |
sqsMessageDelay.sum |
S3 记录创建对象的事件时间到完全解析对象的总时间(以毫秒为单位)。 相关统计数据:总计 维度: |
sqsMessageDelay.max |
S3 记录创建对象的事件时间到完全解析对象的最长时间(以毫秒为单位)。 相关统计数据:最大值 维度: |
s3ObjectsSucceeded.count |
插件成功读取的 S3 对象数量。 相关统计数据:总计 维度: |
sqsMessagesReceived.count |
插件从队列中收到的 Amazon SQS 消息数量。 相关统计数据:总计 维度: |
sqsMessagesDeleted.count |
插件从队列中删除的 Amazon SQS 消息数量。 相关统计数据:总计 维度: |
sqsMessagesFailed.count |
插件无法解析的 Amazon SQS 消息数量。 相关统计数据:总计 维度: |
聚合指标
以下指标适用于聚合aggregate
为前缀。例如,
。sub_pipeline_name
.aggregate.actionHandleEventsOut.count
指标后缀 | 描述 |
---|---|
actionHandleEventsOut.count |
对已配置操作调用 相关统计数据:总计 维度: |
actionHandleEventsDropped.count |
对已配置操作调用 相关统计数据:总计 维度: |
actionHandleEventsProcessingErrors.count |
针对导致错误的已配置操作调用 相关统计数据:总计 维度: |
actionConcludeGroupEventsOut.count |
对已配置操作调用 相关统计数据:总计 维度: |
actionConcludeGroupEventsDropped.count |
对已配置操作调用 相关统计数据:总计 维度: |
actionConcludeGroupEventsProcessingErrors.count |
针对导致错误的已配置操作调用 相关统计数据:总计 维度: |
currentAggregateGroups.value |
当前组数。当组结束时,此量规会减小;当事件发起创建新组时,此量规会增大。 相关统计数据:Average 维度: |
日期指标
以下指标适用于日期date
为前缀。例如,
。sub_pipeline_name
.date.dateProcessingMatchSuccess.count
指标后缀 | 描述 |
---|---|
dateProcessingMatchSuccess.count |
与 相关统计数据:总计 维度: |
dateProcessingMatchFailure.count |
与 相关统计数据:总计 维度: |
Grok 指标
以下指标适用于 Grokgrok
为前缀。例如,
。sub_pipeline_name
.grok.grokProcessingMatch.count
指标后缀 | 描述 |
---|---|
grokProcessingMatch.count |
从 相关统计数据:总计 维度: |
grokProcessingMismatch.count |
与 相关统计数据:总计 维度: |
grokProcessingErrors.count |
记录处理错误数量。 相关统计数据:总计 维度: |
grokProcessingTimeouts.count |
匹配超时的记录数。 相关统计数据:总计 维度: |
grokProcessingTime.count |
当单个记录与 相关统计数据:总计 维度: |
grokProcessingTime.sum |
每条记录与 相关统计数据:总计 维度: |
grokProcessingTime.max |
每条记录与 相关统计数据:最大值 维度: |
Otel 跟踪原始指标
以下指标适用于 OTel 跟踪原始otel_trace_raw
为前缀。例如,
。sub_pipeline_name
.otel_trace_raw.traceGroupCacheCount.value
指标后缀 | 描述 |
---|---|
traceGroupCacheCount.value |
跟踪组缓存中的跟踪组数量。 相关统计数据:总计 维度: |
spanSetCount.value |
span 集集合中的 span 集数量。 相关统计数据:总计 维度: |
Otel 跟踪组指标
以下指标适用于 OTel 跟踪组otel_trace_group
为前缀。例如,
。sub_pipeline_name
.otel_trace_group.recordsInMissingTraceGroup.count
指标后缀 | 描述 |
---|---|
recordsInMissingTraceGroup.count |
缺少追踪组字段的入口记录数量。 相关统计数据:总计 维度: |
recordsOutFixedTraceGroup.count |
成功填充跟踪组字段的出口记录数量。 相关统计数据:总计 维度: |
recordsOutMissingTraceGroup.count |
缺少追踪组字段的出口记录数量。 相关统计数据:总计 维度: |
服务映射有状态指标
以下指标适用于服务映射有状态service-map-stateful
为前缀。例如,
。sub_pipeline_name
.service-map-stateful.spansDbSize.count
指标后缀 | 描述 |
---|---|
spansDbSize.value |
当前窗口持续时间及上一窗口持续时间内 MapDB 中的 span 内存字节大小。 相关统计数据:Average 维度: |
traceGroupDbSize.value |
当前窗口持续时间及上一窗口持续时间内 MapDB 中的跟踪组内存字节大小。 相关统计数据:Average 维度: |
spansDbCount.value |
当前窗口持续时间及上一窗口持续时间内 MapDB 中的 span 计数。 相关统计数据:总计 维度: |
traceGroupDbCount.value |
当前窗口持续时间及上一窗口持续时间内 MapDB 中的跟踪组计数。 相关统计数据:总计 维度: |
relationshipCount.value |
当前窗口持续时间及上一窗口持续时间内存储的关系计数。 相关统计数据:总计 维度: |
OpenSearch 指标
以下指标适用于 OpenSearchopensearch
为前缀。例如,
。sub_pipeline_name
.opensearch.bulkRequestErrors.count
指标后缀 | 描述 |
---|---|
bulkRequestErrors.count |
发送批量请求时遇到的错误总数。 相关统计数据:总计 维度: |
documentsSuccess.count |
通过批量请求(包括重试)成功发送到 OpenSearch Service 的文档数量。 相关统计数据:总计 维度: |
documentsSuccessFirstAttempt.count |
首次尝试通过批量请求成功发送到 OpenSearch Service 的文档数量。 相关统计数据:总计 维度: |
documentErrors.count |
批量请求发送失败的文档数量。 相关统计数据:总计 维度: |
bulkRequestFailed.count |
失败的批量请求数量。 相关统计数据:总计 维度: |
bulkRequestNumberOfRetries.count |
失败批量请求的重试次数。 相关统计数据:总计 维度: |
bulkBadRequestErrors.count |
发送批量请求时遇到的 相关统计数据:总计 维度: |
bulkRequestNotAllowedErrors.count |
发送批量请求时遇到的 相关统计数据:总计 维度: |
bulkRequestInvalidInputErrors.count |
发送批量请求时遇到的 相关统计数据:总计 维度: |
bulkRequestNotFoundErrors.count |
发送批量请求时遇到的 相关统计数据:总计 维度: |
bulkRequestTimeoutErrors.count |
发送批量请求时遇到的 相关统计数据:总计 维度: |
bulkRequestServerErrors.count |
发送批量请求时遇到的 相关统计数据:总计 维度: |
bulkRequestSizeBytes.count |
批量请求的有效负载大小的分布计数(以字节为单位)。 相关统计数据:总计 维度: |
bulkRequestSizeBytes.sum |
批量请求的有效负载大小的总分布(以字节为单位)。 相关统计数据:总计 维度: |
bulkRequestSizeBytes.max |
批量请求的有效负载大小的最大分布(以字节为单位)。 相关统计数据:最大值 维度: |
bulkRequestLatency.count |
请求(包括重试)发送到插件时记录的数据点计数。 相关统计数据:总计 维度: |
bulkRequestLatency.sum |
发送到插件的请求(包括重试)的总延迟(以毫秒为单位)。 相关统计数据:总计 维度: |
bulkRequestLatency.max |
发送到插件的请求(包括重试)的最大延迟(以毫秒为单位)。 相关统计数据:最大值 维度: |
s3.dlqS3RecordsSuccess.count |
成功发送到 S3 死信队列的记录数。 相关统计数据:总计 维度: |
s3.dlqS3RecordsFailed.count |
未能发送到 S3 死信队列的记录数。 相关统计数据:总计 维度: |
s3.dlqS3RequestSuccess.count |
S3 死信队列请求成功次数。 相关统计数据:总计 维度: |
s3.dlqS3RequestFailed.count |
S3 死信队列请求失败次数。 相关统计数据:总计 维度: |
s3.dlqS3RequestLatency.count |
请求(包括重试)发送到 S3 死信队列时记录的数据点计数。 相关统计数据:总计 维度: |
s3.dlqS3RequestLatency.sum |
发送到 S3 死信队列的请求(包括重试)的总延迟(以毫秒为单位)。 相关统计数据:总计 维度: |
s3.dlqS3RequestLatency.max |
发送到 S3 死信队列的请求(包括重试)的最大延迟(以毫秒为单位)。 相关统计数据:最大值 维度: |
s3.dlqS3RequestSizeBytes.count |
S3 死信队列请求的有效负载大小的分布计数(以字节为单位)。 相关统计数据:总计 维度: |
s3.dlqS3RequestSizeBytes.sum |
S3 死信队列请求的有效负载大小的总分布(以字节为单位)。 相关统计数据:总计 维度: |
s3.dlqS3RequestSizeBytes.max |
S3 死信队列请求的有效负载大小的最大分布(以字节为单位)。 相关统计数据:最大值 维度: |
系统和计量指标
以下指标适用于整个 OpenSearch Ingestion 系统。这些指标没有任何前缀。
指标 | 描述 |
---|---|
system.cpu.usage.value |
所有数据节点的可用 CPU 使用率。 相关统计数据:Average 维度: |
system.cpu.count.value |
所有数据节点的 CPU 使用总量。 相关统计数据:Average 维度: |
jvm.memory.max.value |
可用于内存管理的最大内存量(以字节为单位)。 相关统计数据:Average 维度: |
jvm.memory.used.value |
使用的内存总量(以字节为单位)。 相关统计数据:Average 维度: |
jvm.memory.committed.value |
提供给 Java 虚拟机 (JVM) 使用的内存量(以字节为单位)。 相关统计数据:Average 维度: |
computeUnits |
管道正在使用的 Ingestion OpenSearch 计算单位 (Ingestion OCU) 数量。 相关统计数据:Max、Sum、Average 维度: |