用于MSK监控的 Amazon 指标 CloudWatch - Amazon Managed Streaming for Apache Kafka
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

用于MSK监控的 Amazon 指标 CloudWatch

亚马逊与亚马逊MSK集成, CloudWatch 因此您可以收集、查看和分析亚马逊MSK集群的 CloudWatch指标。系统会自动收集您为MSK集群配置的指标并将其推送到 CloudWatch。您可以将集MSK群的监控级别设置为以下级别之一:DEFAULTPER_BROKERPER_TOPIC_PER_BROKER、或PER_TOPIC_PER_PARTITION。以下部分中的表显示了在每个监控级别开始提供的所有指标。

注意

在 3.6.0 及更高版本中,一些用于 CloudWatch 监控的 Amazon MSK 指标的名称已更改。请使用新名称来监控这些指标。对于名称已更改的指标,下表显示了 3.6.0 及更高版本中使用的名称,随后是 2.8.2.tiered 版本中使用的名称。

DEFAULT 级别指标免费。Amazon 定价页面中描述了其他指标的 CloudWatch定价

DEFAULT 级别监控

下表中描述的指标在 DEFAULT 监控级别可用。这些指标是免费的。

DEFAULT 监控级别可用的指标
名称 可见时间 Dimensions 描述
ActiveControllerCount 集群进入ACTIVE状态后。 集群名称 在任何给定时间,每个集群只能有一个控制器处于活动状态。
BurstBalance

集群进入ACTIVE状态后。

集群名称、代理 ID

集群中EBS卷的输入输出突发积分的剩余余额。用它来调查延迟或吞吐量下降的情况。

BurstBalance当EBS卷的基准性能高于最大突发性能时,不会报告卷的情况。有关更多信息,请参阅 I/O 积分和突增性能

BytesInPerSec 在创建主题后。 集群名称、代理 ID、主题 每秒从客户端接收的字节数。此指标适用于每个代理和每个主题。
BytesOutPerSec 在创建主题后。 集群名称、代理 ID、主题 每秒发送到客户端的字节数。此指标适用于每个代理和每个主题。
ClientConnectionCount 集群进入ACTIVE状态后。 集群名称、代理 ID、客户端身份验证 经过身份验证的活跃客户端连接数量。
ConnectionCount 集群进入ACTIVE状态后。

集群名称,代理 ID

经过身份验证、未经过身份验证以及代理间的活跃连接数量。
CPUCreditBalance

集群进入ACTIVE状态后。

集群名称,代理 ID

经纪商自成立以来累积的积CPU分数量。在获得信用后,信用将在信用余额中累积;在花费信用后,将从信用余额中扣除信用。如果您的CPU积分余额用完,则可能会对集群的性能产生负面影响。您可以采取措施来减少CPU负载。例如,您可以减少客户端请求的数量,或将代理类型更新为 M5 代理类型。

CpuIdle 集群进入ACTIVE状态后。 集群名称,代理 ID CPU空闲时间的百分比。
CpuIoWait 集群进入ACTIVE状态后。 集群名称,代理 ID 待处理的磁盘操作期间的CPU空闲时间百分比。
CpuSystem 集群进入ACTIVE状态后。 集群名称,代理 ID 内核空间CPU中的百分比。
CpuUser 集群进入ACTIVE状态后。 集群名称,代理 ID 在用户空间CPU中的百分比。
GlobalPartitionCount 集群进入ACTIVE状态后。 集群名称 集群中所有主题的分区数量,不包括副本。由于GlobalPartitionCount不包括副本,因此这些PartitionCount值的总和可能高于 GlobalPartitionCount 主题的重复因子大于 1 的情况。
GlobalTopicCount 集群进入ACTIVE状态后。 集群名称 集群中所有代理的主题总数。
EstimatedMaxTimeLag 在使用器组使用某个主题之后。 使用器组、主题 预计耗尽 MaxOffsetLag 的时间(以秒为单位)。
KafkaAppLogsDiskUsed 集群进入ACTIVE状态后。 集群名称,代理 ID 用于应用程序日志的磁盘空间的百分比。
KafkaDataLogsDiskUsedCluster Name, Broker ID 维度) 集群进入ACTIVE状态后。 集群名称,代理 ID 用于数据日志的磁盘空间的百分比。
KafkaDataLogsDiskUsedCluster Name 维度) 集群进入ACTIVE状态后。 集群名称 用于数据日志的磁盘空间的百分比。
LeaderCount 集群进入ACTIVE状态后。 集群名称,代理 ID 每个代理的分区领导总数,不包括副本。
MaxOffsetLag 在使用器组使用某个主题之后。 使用器组、主题 主题中所有分区之间的最大偏移延迟。
MemoryBuffered 集群进入ACTIVE状态后。 集群名称,代理 ID 代理的缓冲内存大小(以字节为单位)。
MemoryCached 集群进入ACTIVE状态后。 集群名称,代理 ID 代理的缓存内存大小(以字节为单位)。
MemoryFree 集群进入ACTIVE状态后。 集群名称,代理 ID 可供代理使用的可用内存大小(以字节为单位)。
HeapMemoryAfterGC

集群进入ACTIVE状态后。

集群名称,代理 ID

垃圾回收后使用的总堆内存百分比。
MemoryUsed 集群进入ACTIVE状态后。 集群名称,代理 ID 代理正在使用的内存大小(以字节为单位)。
MessagesInPerSec 集群进入ACTIVE状态后。 集群名称,代理 ID 代理每秒传入消息数。
NetworkRxDropped 集群进入ACTIVE状态后。 集群名称,代理 ID 丢弃的接收包的数量。
NetworkRxErrors 集群进入ACTIVE状态后。 集群名称,代理 ID 代理的网络接收错误数。
NetworkRxPackets 集群进入ACTIVE状态后。 集群名称,代理 ID 代理收到的数据包的数量。
NetworkTxDropped 集群进入ACTIVE状态后。 集群名称,代理 ID 丢弃的传输包的数量。
NetworkTxErrors 集群进入ACTIVE状态后。 集群名称,代理 ID 代理的网络传输错误的数量。
NetworkTxPackets 集群进入ACTIVE状态后。 集群名称,代理 ID 代理传输的数据包的数量。
OfflinePartitionsCount 集群进入ACTIVE状态后。 集群名称 集群中处于脱机状态的分区的总数。
PartitionCount 集群进入ACTIVE状态后。 集群名称,代理 ID 每个代理的主题分区总数,不包括副本。
ProduceTotalTimeMsMean 集群进入ACTIVE状态后。 集群名称,代理 ID 平均生成时间(以毫秒为单位)。
RequestBytesMean 集群进入ACTIVE状态后。 集群名称,代理 ID 代理的请求字节的平均数量。
RequestTime 在应用请求限制后。 集群名称,代理 ID 代理网络和 I/O 线程处理请求所花费的平均时间(以毫秒为单位)。
RootDiskUsed 集群进入ACTIVE状态后。 集群名称,代理 ID 代理所使用的根磁盘的百分比。
SumOffsetLag 在使用器组使用某个主题之后。 使用器组、主题 主题中所有分区的聚合偏移延迟。
SwapFree 集群进入ACTIVE状态后。 集群名称,代理 ID 对代理可用的交换内存的大小(以字节为单位)。
SwapUsed 集群进入ACTIVE状态后。 集群名称,代理 ID 代理正在使用的交换内存的大小(以字节为单位)。
TrafficShaping

集群进入ACTIVE状态后。

集群名称,代理 ID

表示由于超出网络分配而形成(丢弃或排队)的数据包数量的高级指标。使用 PER _ BROKER 指标可以获得更精细的细节。

UnderMinIsrPartitionCount 集群进入ACTIVE状态后。 集群名称,代理 ID 代理的下 minIsr 分区数。
UnderReplicatedPartitions 集群进入ACTIVE状态后。 集群名称,代理 ID 代理的未完全复制分区的数目。
ZooKeeperRequestLatencyMsMean 集群进入ACTIVE状态后。 集群名称,代理 ID 适用于 ZooKeeper基于群集。来自代理的 Apache ZooKeeper 请求的平均延迟(以毫秒为单位)。
ZooKeeperSessionState 集群进入ACTIVE状态后。 集群名称,代理 ID 适用于 ZooKeeper基于群集。经纪商 ZooKeeper 会话的连接状态可能是以下之一:NOT_: '0.0',CONNECTED: '0.1',ASSOCIATING: '0.5',CONNECTING: '0.8',CONNECTEDREADONLY: '1.0',CONNECTED: '5.0',AUTH_ CLOSEDFAILED:'10.0'。

PER_BROKER 级别监控

在将监控级别设置为 PER_BROKER 时,除了所有 DEFAULT 级别指标之外,您还将获得下表中描述的指标。您需要为下表中的指标付费,而 DEFAULT 级别指标仍免费。此表中的指标具有以下维度:集群名称、代理 ID。

PER_BROKER 监控级别开始提供的其他指标
名称 可见时间 描述
BwInAllowanceExceeded 集群进入ACTIVE状态后。

因入站聚合带宽超过代理的最大值而形成的数据包的数量。

BwOutAllowanceExceeded 集群进入ACTIVE状态后。

因出站聚合带宽超过代理的最大值而形成的数据包的数量。

ConnTrackAllowanceExceeded 集群进入ACTIVE状态后。

因连接跟踪超过代理的最大值而形成的数据包的数量。连接跟踪与安全组相关,安全组会跟踪建立的每个连接,以确保返回数据包按预期交付。

ConnectionCloseRate 集群进入ACTIVE状态后。

每个侦听器每秒关闭的连接数量。这个数字按每个侦听器聚合,并针对客户端侦听器进行筛选。

ConnectionCreationRate 集群进入ACTIVE状态后。

每个侦听器每秒建立的新连接数量。这个数字按每个侦听器聚合,并针对客户端侦听器进行筛选。

CpuCreditUsage 集群进入ACTIVE状态后。

经纪人花费的CPU积分数量。如果您的CPU信用余额用完,则可能会对集群的表现产生负面影响。您可以采取措施来减少CPU负载。例如,您可以减少客户端请求的数量,或将代理类型更新为 M5 代理类型。

FetchConsumerLocalTimeMsMean 在提供创建器/使用器后。 在领导处处理使用器请求所花费的平均时间(以毫秒为单位)。
FetchConsumerRequestQueueTimeMsMean 在提供创建器/使用器后。 使用器请求在请求队列中等待的平均时间(以毫秒为单位)。
FetchConsumerResponseQueueTimeMsMean 在提供创建器/使用器后。 使用器请求在响应队列中等待的平均时间(以毫秒为单位)。
FetchConsumerResponseSendTimeMsMean 在提供创建器/使用器后。 使用器发送响应所花费的平均时间(以毫秒为单位)。
FetchConsumerTotalTimeMsMean 在提供创建器/使用器后。 使用器从代理提取数据所花费的总平均时间(以毫秒为单位)。
FetchFollowerLocalTimeMsMean 在提供创建器/使用器后。 在领导处处理跟踪器请求所花费的平均时间(以毫秒为单位)。
FetchFollowerRequestQueueTimeMsMean 在提供创建器/使用器后。 跟踪器请求在请求队列中等待的平均时间(以毫秒为单位)。
FetchFollowerResponseQueueTimeMsMean 在提供创建器/使用器后。 跟踪器请求在响应队列中等待的平均时间(以毫秒为单位)。
FetchFollowerResponseSendTimeMsMean 在提供创建器/使用器后。 跟踪器发送响应所花费的平均时间(以毫秒为单位)。
FetchFollowerTotalTimeMsMean 在提供创建器/使用器后。 跟踪器从代理提取数据所花费的总平均时间(以毫秒为单位)。
FetchMessageConversionsPerSec 在创建主题后。 代理每秒提取消息转换的次数。
FetchThrottleByteRate 在应用带宽限制后。 每秒的限制字节数。
FetchThrottleQueueSize 在应用带宽限制后。 限制队列中的消息数。
FetchThrottleTime 在应用带宽限制后。 平均提取限制时间(以毫秒为单位)。
IAMNumberOfConnectionRequests 集群进入ACTIVE状态后。 每秒的IAM身份验证请求数。
IAMTooManyConnections 集群进入ACTIVE状态后。 尝试的连接数超过 100。0 表示连接数在限制范围内。如果>0,则超过了油门限制,您需要减少连接数。
NetworkProcessorAvgIdlePercent 集群进入ACTIVE状态后。 网络处理器处于空闲状态的时间的平均百分比。
PpsAllowanceExceeded 集群进入ACTIVE状态后。

由于双向数据包PPS超过代理的最大值而形成的数据包数量。

ProduceLocalTimeMsMean 集群进入ACTIVE状态后。 在领导处处理请求所花费的平均时间(以毫秒为单位)。
ProduceMessageConversionsPerSec 在创建主题后。 代理每秒生成的消息转换数。
ProduceMessageConversionsTimeMsMean 集群进入ACTIVE状态后。 消息格式转换所花费的平均时间(以毫秒为单位)。
ProduceRequestQueueTimeMsMean 集群进入ACTIVE状态后。 请求消息在队列中所花费的平均时间(以毫秒为单位)。
ProduceResponseQueueTimeMsMean 集群进入ACTIVE状态后。 响应消息在队列中所花费的平均时间(以毫秒为单位)。
ProduceResponseSendTimeMsMean 集群进入ACTIVE状态后。 发送响应消息所花费的平均时间(以毫秒为单位)。
ProduceThrottleByteRate 在应用带宽限制后。 每秒的限制字节数。
ProduceThrottleQueueSize 在应用带宽限制后。 限制队列中的消息数。
ProduceThrottleTime 在应用带宽限制后。 平均生成限制时间(以毫秒为单位)。
ProduceTotalTimeMsMean 集群进入ACTIVE状态后。 平均生成时间(以毫秒为单位)。

RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered)

在提供生成器/使用器后。

为响应使用器提取而从分层存储传输的总字节数。此指标包括影响下游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。

RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered)

在提供生成器/使用器后。

传输到分层存储的总字节数,包括来自日志段、索引和其他辅助文件的数据。此指标包括影响上游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。

RemoteLogManagerTasksAvgIdlePercent

集群进入ACTIVE状态后。

远程日志管理器闲置时间的平均百分比。远程日志管理器将数据从代理传输到分层存储。类别:内部活动。这是一个 KIP-405 的指标。
RemoteLogReaderAvgIdlePercent

集群进入ACTIVE状态后。

远程日志读取器闲置时间的平均百分比。远程日志读取器将数据从远程存储传输到代理,以响应使用器提取。类别:内部活动。这是一个 KIP-405 的指标。
RemoteLogReaderTaskQueueSize

集群进入ACTIVE状态后。

负责从分层存储中读取并等待安排的任务数量。类别:内部活动。这是一个 KIP-405 的指标。
RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered)

集群进入ACTIVE状态后。

响应读取请求的总错误率,指定代理将这些请求发送到分层存储,以检索数据来响应使用器提取。此指标包括影响下游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。
RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered)

集群进入ACTIVE状态后。

指定代理发送到分层存储以检索数据来响应使用器提取的读取请求的总数。此指标包括影响下游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。
RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered)

集群进入ACTIVE状态后。

响应写入请求的总错误率,指定代理将这些请求发送到分层存储以向上游传输数据。此指标包括影响上游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。
ReplicationBytesInPerSec 在创建主题后。 每秒从其他代理接收的字节数。
ReplicationBytesOutPerSec 在创建主题后。 每秒发送到其他代理的字节数。
RequestExemptFromThrottleTime 在应用请求限制后。 代理网络和 I/O 线程处理免受限制的请求所花费的平均时间(以毫秒为单位)。
RequestHandlerAvgIdlePercent 集群进入ACTIVE状态后。 请求处理程序线程处于空闲状态的时间的平均百分比。
RequestThrottleQueueSize 在应用请求限制后。 限制队列中的消息数。
RequestThrottleTime 在应用请求限制后。 平均请求限制时间(以毫秒为单位)。
TcpConnections 集群进入ACTIVE状态后。

显示设置了SYN标记的传入和传出TCP分段的数量。

RemoteCopyLagBytes (TotalTierBytesLag in v2.8.2.tiered) 在创建主题后。 在代理上符合分层条件但尚未传输到分层存储的数据的总字节数。此指标显示了上游数据传输的效率。随着延迟增加,分层存储中无法持续存在的数据量也随之增加。类别:归档延迟。这不是 KIP -405 指标。
TrafficBytes 集群进入ACTIVE状态后。

以总字节数显示客户端(生成器和使用器)与代理之间的网络流量。不报告代理之间的流量。

VolumeQueueLength 集群进入ACTIVE状态后。

指定时间段内等待完成的读取和写入操作请求的数量。

VolumeReadBytes 集群进入ACTIVE状态后。

在指定时间段内读取的字节数。

VolumeReadOps 集群进入ACTIVE状态后。

在指定时间段内读取的操作数。

VolumeTotalReadTime 集群进入ACTIVE状态后。

在指定时间段内完成所有读取操作耗费的总秒数。

VolumeTotalWriteTime 集群进入ACTIVE状态后。

在指定时间段内完成所有写入操作耗费的总秒数。

VolumeWriteBytes 集群进入ACTIVE状态后。

在指定时间段内写入的字节数。

VolumeWriteOps 集群进入ACTIVE状态后。

在指定时间段内写入操作的数量。

PER_TOPIC_PER_BROKER 级别监控

将监控级别设置为时PER_TOPIC_PER_BROKER,除了和DEFAULT级别中的所有指标外,您还可以获得下表中描述PER_BROKER的指标。仅 DEFAULT 级别指标是免费的。此表中的指标具有以下维度:集群名称、代理商 ID、主题。

重要

对于使用 Apache Kafka 2.4.1 或更高版本的 Amazon MSK 集群,下表中的指标只有在其值首次变为非零后才会出现。例如,要查看 BytesInPerSec,一个或多个创建器必须先向集群发送数据。

PER_TOPIC_PER_BROKER 监控级别开始提供的其他指标
名称 可见时间 描述
FetchMessageConversionsPerSec 在创建主题后。 每秒转换的已提取消息的数量。
MessagesInPerSec 在创建主题后。 每秒接收的消息的数量。
ProduceMessageConversionsPerSec 在创建主题后。 已生成消息的每秒转换次数。
RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered)

创建主题后,以及生成/使用主题时。

为响应使用器提取指定主题和代理而从分层存储传输的字节数。此指标包括影响指定代理上下游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。

RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered) 创建主题后,以及生成/使用主题时。

为指定主题和代理传输到分层存储的字节数。此指标包括影响指定代理上上游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。

RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered) 创建主题后,以及生成/使用主题时。 响应读取请求的错误率,指定代理将这些请求发送到分层存储,以检索数据来响应使用器对指定主题的提取。此指标包括影响指定代理上下游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。
RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered) 创建主题后,以及生成/使用主题时。 指定代理发送到分层存储以检索数据来响应使用器对指定主题的提取的读取请求数。此指标包括影响指定代理上下游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。
RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered) 创建主题后,以及生成/使用主题时。 响应写入请求的错误率,指定代理将这些请求发送到分层存储以向上游传输数据。此指标包括影响指定代理上上游数据传输流量的所有主题分区。类别:流量和错误率。这是一个 KIP-405 的指标。

PER_TOPIC_PER_PARTITION 级别监控

将监控级别设置为时PER_TOPIC_PER_PARTITION,除了、和DEFAULT级别中的所有指标外,还会获得下表中描述的PER_TOPIC_PER_BROKER指标。PER_BROKERDEFAULT 级别指标是免费的。此表中的指标具有以下维度:使用器组、主题、分区。

PER_TOPIC_PER_PARTITION 监控级别开始提供的其他指标
名称 可见时间 描述
EstimatedTimeLag 在使用器组使用某个主题之后。 预计耗尽分区偏移延迟的时间(以秒为单位)。
OffsetLag 在使用器组使用某个主题之后。 分区级别使用器在偏移量方面的延迟。