监控复制 - Amazon Managed Streaming for Apache Kafka
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控复制

您可以在目标集群区域https://console.aws.amazon.com/cloudwatch/中使用来查看每个 Amazon MSK Replicator ReplicationLatency MessageLag、、的主题和汇总级别的指标。ReplicatorThroughput在 “Amazon/Kafka” 命名空间下ReplicatorName方可以看到指标。您还可以查看 ReplicatorFailureAuthErrorThrottleTime 指标来检查问题。

MSK控制台显示每个 MSK Replicator 的 CloudWatch 指标子集。从控制台复制器列表中,选择复制器的名称并选择监控选项卡。

MSK复制器指标

以下指标描述了 MSK Replicator 的性能或连接指标。

AuthError 指标不包括主题级别的身份验证错误。要监控 MSK Replicator 的主题级身份验证错误,请监控 Replicator 的 ReplicationLatency 指标和源集群的主题级指标。 MessagesInPerSec如果主题 ReplicationLatency 降至 0,但该主题仍有数据正在生成给它,则表示 Replicator 在该主题上存在身份验证问题。检查 Replicator 的服务执行IAM角色是否有足够的权限访问该主题。

指标类型 指标 描述 尺寸 单位 原始指标粒度 原始指标聚合统计数据
Performance ReplicationLatency 将记录从源集群复制到目标集群所花费的时间;源集群的记录生成时间与复制到目标集群之间的间隔。如果 ReplicationLatency 增加,请检查集群是否有足够的分区来支持复制。当分区数太低而无法实现高吞吐量时,可能会出现较高的复制延迟。 ReplicatorName 毫秒 分区 最高
ReplicatorName,话题 毫秒 分区 最高
Performance MessageLag 监视MSK复制器和源集群之间的同步。 MessageLag 表示向源集群生成的消息与复制器使用的消息之间的延迟。这不是源集群和目标集群之间的延迟。即使源集群不可用/中断,复制器也将完成向目标集群写入已消耗的消息。中断后, MessageLag 显示一个增加的消息,表示复制器位于源集群后面的消息数量,可以对其进行监控,直到消息数为 0,这表明复制器已经赶上了源集群。 ReplicatorName 计数 分区 总和
ReplicatorName,话题 计数 分区 总和
Performance ReplicatorThroughput 每秒复制的平均字节数。如果某个 ReplicatorThroughput 主题被删除,请检查 KafkaClusterPingSuccessCount 和 AuthError 指标以确保 Replicator 可以与集群通信,然后检查集群指标以确保集群没有关闭。 ReplicatorName BytesPerSecond 分区 总和
ReplicatorName,话题 BytesPerSecond 分区 总和
Debug AuthError 每秒身份验证失败的连接数。如果此指标大于 0,则可以检查复制器的服务执行角色策略是否有效,并确保没有为集群权限设置任何拒绝权限。根据 clusterAlias 维度,您可以确定源集群还是目标集群是否遇到身份验证错误。 ReplicatorName, ClusterAlias 计数 工作线程 总和
Debug ThrottleTime 集群上的代理限制请求的平均时间(以毫秒为单位)。设置限制以避免 MSK Replicator 使集群不堪重负。如果此指标为 0, replicationLatency 不高, replicatorThroughput 且符合预期,则限制按预期运行。如果该指标大于 0,则可以相应地调整节流。 ReplicatorName, ClusterAlias 毫秒 工作线程 最高
Debug ReplicatorFailure 复制器遇到的故障数。 ReplicatorName 计数 总和
Debug KafkaClusterPingSuccessCount

表示与 kafka 集群的复制器连接的运行状况。如果该值为 1,则表示连接正常。如果该值为 0 或没有数据点,则连接不正常。如果该值为 0,则可以检查 Kafka 集群的网络或IAM权限设置。根据 ClusterAlias 维度,您可以确定该指标是针对源集群还是目标集群。

ReplicatorName, ClusterAlias 计数 总和