本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控复制
您可以在目标集群区域https://console.aws.amazon.com/cloudwatch/ReplicationLatency
MessageLag
、、的主题和汇总级别的指标。ReplicatorThroughput
在 “Amazon/Kafka” 命名空间下ReplicatorName方可以看到指标。您还可以查看 ReplicatorFailure
、AuthError
和 ThrottleTime
指标来检查问题。
MSK 控制台显示每个 MSK CloudWatch 复制器的指标子集。从控制台复制器列表中,选择复制器的名称并选择监控选项卡。
MSK 复制器指标
以下指标描述了 MSK 复制器的性能或连接指标。
AuthError 指标不包括主题级别的身份验证错误。要监控 MSK Replicator 的主题级身份验证错误,请监控 Replicator 的 ReplicationLatency 指标和源集群的主题级指标。 MessagesInPerSec如果主题 ReplicationLatency 降至 0,但该主题仍有数据正在生成给它,则表示 Replicator 在该主题上存在身份验证问题。检查复制器的服务执行 IAM 角色是否有足够的权限访问该主题。
指标类型 | 指标 | 描述 | Dimensions | 单位 | 原始指标粒度 | 原始指标聚合统计数据 |
---|---|---|---|---|---|---|
性能 | ReplicationLatency | 将记录从源集群复制到目标集群所花费的时间;源集群的记录生成时间与复制到目标集群之间的间隔。如果 ReplicationLatency 增加,请检查集群是否有足够的分区来支持复制。当分区数太低而无法实现高吞吐量时,可能会出现较高的复制延迟。 | ReplicatorName | 毫秒 | 分区 | 最大值 |
ReplicatorName,话题 | 毫秒 | 分区 | 最大值 | |||
性能 | MessageLag | 监控 MSK 复制器和源集群之间的同步。 MessageLag 表示向源集群生成的消息与复制器使用的消息之间的延迟。这不是源集群与目标集群之间的延迟。即使源集群不可用/中断,复制器也会完成将其已消费的消息写入目标集群。中断后, MessageLag 显示一个增加的消息,表示复制器位于源集群后面的消息数量,可以对其进行监控,直到消息数为 0,这表明复制器已经赶上了源集群。 | ReplicatorName | 计数 | 分区 | 总和 |
ReplicatorName,话题 | 计数 | 分区 | 总和 | |||
性能 | ReplicatorBytesInPerSec | 复制器每秒处理的平均字节数。MSK 复制器处理的数据包括 MSK 复制器接收的所有数据,其中包括复制到目标集群的数据和 MSK 复制器筛选的数据(仅当您的复制器配置了相同主题名称配置时),以防止将数据复制回其源自的同一主题。如果您的复制器配置了“带前缀”主题名称配置,则 ReplicatorBytesInPerSec 和 ReplicatorThroughput 指标都将具有相同的值,因为 MSK 复制器不会筛选任何数据。 |
ReplicatorName | BytesPerSecond | ReplicatorName | 总和 |
性能 | ReplicatorThroughput | 每秒复制的平均字节数。如果某个 ReplicatorThroughput 主题被删除,请检查 KafkaClusterPingSuccessCount 和 AuthError 指标以确保 Replicator 可以与集群通信,然后检查集群指标以确保集群没有关闭。 | ReplicatorName | BytesPerSecond | 分区 | 总和 |
ReplicatorName,话题 | BytesPerSecond | 分区 | 总和 | |||
Debug | AuthError | 每秒身份验证失败的连接数。如果此指标大于 0,则可以检查复制器的服务执行角色策略是否有效,并确保没有为集群权限设置任何拒绝权限。根据 clusterAlias 维度,您可以确定源集群或目标集群是否遇到身份验证错误。 | ReplicatorName, ClusterAlias | 计数 | 工作线程 | 总和 |
Debug | ThrottleTime | 集群上的代理限制请求的平均时间(以毫秒为单位)。设置节流以避免 MSK 复制器使集群不堪重负。如果此指标为 0,replicationLatency 不高,并且 replicatorThroughput 符合预期,则表示节流按预期运行。如果该指标大于 0,则可以相应地调整节流。 | ReplicatorName, ClusterAlias | 毫秒 | 工作线程 | 最大值 |
Debug | ReplicatorFailure | 复制器遇到的故障数。 | ReplicatorName | 计数 | 总和 | |
Debug | KafkaClusterPingSuccessCount |
表示与 kafka 集群的复制器连接的运行状况。如果该值为 1,则表示连接正常。如果该值为 0 或没有数据点,则连接不正常。如果该值为 0,则可以检查 Kafka 集群的网络或 IAM 权限设置。根据 ClusterAlias 维度,您可以确定该指标是针对源集群还是目标集群。 |
ReplicatorName, ClusterAlias | 计数 | 总和 |