在 kafka 中的复制分区下修复

wan*_*onk 5 apache-kafka

在我们的生产环境中,我们经常看到分区在使用主题消息时复制不足。我们正在使用 Kafka 0.11。从文档中可以理解的是

配置参数replica.lag.max.messages已删除。在决定哪些副本同步时,分区领导将不再考虑滞后消息的数量。

配置参数replica.lag.time.max.ms现在不仅指自上次从副本获取请求以来经过的时间,还指自副本上次赶上以来的时间。仍在从领导者获取消息但没有赶上最新消息的副本replica.lag.time.max.ms将被视为不同步。

我们如何解决这个问题?副本不同步的不同原因是什么?在我们的场景中,我们在刀片服务器的单个机架中拥有所有 Kafka 代理,并且都使用具有 10GBPS 以太网(单工)的相同网络。我没有看到副本因网络而失去同步的任何原因。

Dor*_*evi 9

我们遇到了同样的问题:

解决方案是:

  1. 重新启动 Zookeeper 领导者。
  2. 重新启动不复制某些分区的 broker\brokers。

没有数据丢失。

问题是由于 ZK 中的错误状态,因此在 ZK 上有一个未解决的问题,不记得编号了。