我们有一个由4个节点组成的集群.我们观察到其中一个节点遇到了不断缩小和扩展ISR超过1小时的情况,并且在代理被弹回之前无法恢复.
[2017-02-21 14:52:16,518] INFO Partition [skynet-large-stage,5] on broker 0: Shrinking ISR for partition [skynet-large-stage,5] from 2,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,543] INFO Partition [skynet-large-stage,37] on broker 0: Shrinking ISR for partition [skynet-large-stage,37] from 1,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,544] INFO Partition [skynet-large-stage,13] on broker 0: Shrinking ISR for partition [skynet-large-stage,13] from 1,0 to 0 (kafka.cluster.Partition)
[2017-02-21 14:52:16,545] INFO Partition [__consumer_offsets,46] on broker 0: Shrinking ISR for partition [__consumer_offsets,46] from 3,2,0 to 3,0 (kafka.cluster.Partition)
.
.
Run Code Online (Sandbox Code Playgroud)
我想知道导致这个问题的原因以及为什么破碎的经纪人没有被赶出ISR.
Kafka版本是0.10.1.0
在KAFKA-4477中有一个错误已修复,但总的来说,当某些临时网络出现故障时,当Kafka代理与Zookeeper节点对话时,超时(默认值为6000ms超时)时,我看到了相同的问题。他们被赶出了集群,分区领导层发生了变化,客户不得不重新平衡等等。对于高容量的集群,这是一个痛苦。
仅仅增加这个超时时间已经对我有所帮助了:
zookeeper.session.timeout.ms
Run Code Online (Sandbox Code Playgroud)
根据官方文档,默认值为6000ms。我发现只是将其增加到15000ms会使群集变得坚如磐石。
0.11.0 Kafka版本的文档:https ://kafka.apache.org/0110/documentation.html
| 归档时间: |
|
| 查看次数: |
6042 次 |
| 最近记录: |