卡夫卡经纪人不断ISR萎缩和扩张？

Question

卡夫卡经纪人不断ISR萎缩和扩张？

我们有一个由4个节点组成的集群.我们观察到其中一个节点遇到了不断缩小和扩展ISR超过1小时的情况,并且在代理被弹回之前无法恢复.

[2017-02-21 14:52:16,518] INFO Partition [skynet-large-stage,5] on broker 0: Shrinking ISR for partition [skynet-large-stage,5] from 2,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,543] INFO Partition [skynet-large-stage,37] on broker 0: Shrinking ISR for partition [skynet-large-stage,37] from 1,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,544] INFO Partition [skynet-large-stage,13] on broker 0: Shrinking ISR for partition [skynet-large-stage,13] from 1,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,545] INFO Partition [__consumer_offsets,46] on broker 0: Shrinking ISR for partition [__consumer_offsets,46] from 3,2,0 to 3,0 (kafka.cluster.Partition)
.
.

Run Code Online (Sandbox Code Playgroud)

我想知道导致这个问题的原因以及为什么破碎的经纪人没有被赶出ISR.

Kafka版本是0.10.1.0

Answer 1

mju*_*rez 5

在KAFKA-4477中有一个错误已修复，但总的来说，当某些临时网络出现故障时，当Kafka代理与Zookeeper节点对话时，超时（默认值为6000ms超时）时，我看到了相同的问题。他们被赶出了集群，分区领导层发生了变化，客户不得不重新平衡等等。对于高容量的集群，这是一个痛苦。

仅仅增加这个超时时间已经对我有所帮助了：

 zookeeper.session.timeout.ms

Run Code Online (Sandbox Code Playgroud)

根据官方文档，默认值为6000ms。我发现只是将其增加到15000ms会使群集变得坚如磐石。

0.11.0 Kafka版本的文档：https ://kafka.apache.org/0110/documentation.html

归档时间：	9 年前
查看次数：	6042 次
最近记录：	7 年，4 月前