本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控复制
您可以在目标集群区域https://console.aws.amazon.com/cloudwatch/ReplicationLatency
MessageLag
、、的主题和汇总级别的指标。ReplicatorThroughput
在 “Amazon/Kafka” 命名空间下ReplicatorName方可以看到指标。您还可以查看 ReplicatorFailure
、AuthError
和 ThrottleTime
指标来检查问题。
MSK控制台显示每个 MSK Replicator 的 CloudWatch 指标子集。从控制台复制器列表中,选择复制器的名称并选择监控选项卡。
MSK复制器指标
以下指标描述了 MSK Replicator 的性能或连接指标。
AuthError 指标不包括主题级别的身份验证错误。要监控 MSK Replicator 的主题级身份验证错误,请监控 Replicator 的 ReplicationLatency 指标和源集群的主题级指标。 MessagesInPerSec如果主题 ReplicationLatency 降至 0,但该主题仍有数据正在生成给它,则表示 Replicator 在该主题上存在身份验证问题。检查 Replicator 的服务执行IAM角色是否有足够的权限访问该主题。
指标类型 | 指标 | 描述 | 尺寸 | 单位 | 原始指标粒度 | 原始指标聚合统计数据 |
---|---|---|---|---|---|---|
Performance | ReplicationLatency | 将记录从源集群复制到目标集群所花费的时间;源集群的记录生成时间与复制到目标集群之间的间隔。如果 ReplicationLatency 增加,请检查集群是否有足够的分区来支持复制。当分区数太低而无法实现高吞吐量时,可能会出现较高的复制延迟。 | ReplicatorName | 毫秒 | 分区 | 最高 |
ReplicatorName,话题 | 毫秒 | 分区 | 最高 | |||
Performance | MessageLag | 监视MSK复制器和源集群之间的同步。 MessageLag 表示向源集群生成的消息与复制器使用的消息之间的延迟。这不是源集群和目标集群之间的延迟。即使源集群不可用/中断,复制器也将完成向目标集群写入已消耗的消息。中断后, MessageLag 显示一个增加的消息,表示复制器位于源集群后面的消息数量,可以对其进行监控,直到消息数为 0,这表明复制器已经赶上了源集群。 | ReplicatorName | 计数 | 分区 | 总和 |
ReplicatorName,话题 | 计数 | 分区 | 总和 | |||
Performance | ReplicatorThroughput | 每秒复制的平均字节数。如果某个 ReplicatorThroughput 主题被删除,请检查 KafkaClusterPingSuccessCount 和 AuthError 指标以确保 Replicator 可以与集群通信,然后检查集群指标以确保集群没有关闭。 | ReplicatorName | BytesPerSecond | 分区 | 总和 |
ReplicatorName,话题 | BytesPerSecond | 分区 | 总和 | |||
Debug | AuthError | 每秒身份验证失败的连接数。如果此指标大于 0,则可以检查复制器的服务执行角色策略是否有效,并确保没有为集群权限设置任何拒绝权限。根据 clusterAlias 维度,您可以确定源集群还是目标集群是否遇到身份验证错误。 | ReplicatorName, ClusterAlias | 计数 | 工作线程 | 总和 |
Debug | ThrottleTime | 集群上的代理限制请求的平均时间(以毫秒为单位)。设置限制以避免 MSK Replicator 使集群不堪重负。如果此指标为 0, replicationLatency 不高, replicatorThroughput 且符合预期,则限制按预期运行。如果该指标大于 0,则可以相应地调整节流。 | ReplicatorName, ClusterAlias | 毫秒 | 工作线程 | 最高 |
Debug | ReplicatorFailure | 复制器遇到的故障数。 | ReplicatorName | 计数 | 总和 | |
Debug | KafkaClusterPingSuccessCount |
表示与 kafka 集群的复制器连接的运行状况。如果该值为 1,则表示连接正常。如果该值为 0 或没有数据点,则连接不正常。如果该值为 0,则可以检查 Kafka 集群的网络或IAM权限设置。根据 ClusterAlias 维度,您可以确定该指标是针对源集群还是目标集群。 |
ReplicatorName, ClusterAlias | 计数 | 总和 |