在修补和其他维护期间代理重启的影响 - Amazon Managed Streaming for Apache Kafka
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在修补和其他维护期间代理重启的影响

Amazon MSK 会定期更新您的经纪商的软件。如果您遵循最佳实践,这些更新不会影响应用程序的写入和读取。

Amazon MSK 使用软件的滚动更新来保持集群的高可用性。在此过程中,经纪人会逐一重启,Kafka 会自动将领导权移交给另一家在线经纪商。Kafka 客户端具有内置机制,可以自动检测分区领导层的变化,并继续向 MSK 集群中写入和读取数据。

代理离线后,通常会在您的客户端上看到暂时断开连接错误。您还将在短时间内(最长 2 分钟,通常更短)观察 p99 读取和写入延迟(通常为高毫秒,最长可达 2 秒)出现一些峰值。这些峰值是预料之中的,是由客户端重新连接到新的领导者经纪人引起的;它不会影响你的生产或消费,将在重新连接后消失。

您还将观察到该指标的增加UnderReplicatedPartitions,这是预期的,因为已关闭的代理上的分区不再复制数据。这不会影响应用程序的写入和读取,因为托管在其他代理上的这些分区的副本现在正在处理请求。

软件更新后,当经纪人重新上线时,它需要 “catch” 离线时生成的消息。在 catch up 期间,您可能还会观察到卷吞吐量和 CPU 的使用率有所增加。如果您的代理上有足够的 CPU、内存、网络和卷资源,则这些不会对集群的写入和读取产生任何影响。