本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在修补和其他维护期间代理重启的影响
Amazon MSK 会定期更新您的经纪商的软件。如果您遵循最佳实践,这些更新不会影响应用程序的写入和读取。
Amazon MSK 使用软件的滚动更新来保持集群的高可用性。在此过程中,经纪人会逐一重启,Kafka 会自动将领导权移交给另一家在线经纪商。Kafka 客户端具有内置机制,可以自动检测分区领导层的变化,并继续向 MSK 集群中写入和读取数据。
代理离线后,通常会在您的客户端上看到暂时断开连接错误。您还将在短时间内(最长 2 分钟,通常更短)观察 p99 读取和写入延迟(通常为高毫秒,最长可达 2 秒)出现一些峰值。这些峰值是预料之中的,是由客户端重新连接到新的领导者经纪人引起的;它不会影响你的生产或消费,将在重新连接后消失。
您还将观察到该指标的增加UnderReplicatedPartitions
,这是预期的,因为已关闭的代理上的分区不再复制数据。这不会影响应用程序的写入和读取,因为托管在其他代理上的这些分区的副本现在正在处理请求。
软件更新后,当经纪人重新上线时,它需要 “catch” 离线时生成的消息。在 catch up 期间,您可能还会观察到卷吞吐量和 CPU 的使用率有所增加。如果您的代理上有足够的 CPU、内存、网络和卷资源,则这些不会对集群的写入和读取产生任何影响。