Kafka分区重新分配算法及原因

VB_*_*VB_ 4 architecture partitioning database-partitioning apache-kafka

我发现 Kafka 的分区机制笨拙且不舒服。Kafka 不支持自动分区重新分配功能，这会导致以下情况：

如果要添加节点，则必须手动执行bin/kafka-reassign-partitions.sh脚本。您必须以 JSON 格式手动写出每个主题的分区重新分配。
在代理失败时，我认为应该激活副本而无需重新分区。这可能会导致热点。我对吗？

问题：

是否有任何架构/设计原因导致 Kafka 没有/不应该自动重新分配分区？这是因为它会降低性能吗？
背后的分区重新分配算法是什么bin/kafka-reassign-partitions.sh？Kafka 是否使用任何优化（即一致哈希）或原始哈希范围分区？

由于数据存储在代理上，如果您将分区重新分配给另一个代理，则必须复制所有数据。

此外，为了不失去任何保证，在复制期间，您必须维护额外的副本（旧副本和新副本）。请注意，正在开发一个 KIP 来改进该特定行为 ( KIP-435 )。

移动数据会给集群带来额外负载，显然会对性能产生重大影响
默认行为kafka-reassign-partitions.sh非常幼稚，如果您打算在真实环境中使用它，我真的建议您自己制作一个重新分配文件。

默认情况下，它将重新分配所有分区，基本上模拟使用新代理创建所有主题。虽然这很好地平衡了领导者，但这会导致大量数据需要复制。

实际上，只需移动分区的一小部分即可实现类似的结果，从而限制数据复制和对集群的影响。

如果您不确定如何制作重新分配文件，有很多可以生成和应用重新分配的工具：kafka-kit、cruise-control

归档时间：	7 年，1 月前
查看次数：	4175 次
最近记录：	7 年，1 月前

什么是postgresql中水平分片的好方法 18

什么是面向服务的架构？ 14

RoR SaaS应用程序的体系结构 10

如果 RocksDB 缓存在内存中，为什么要在 Kafka Streams Processor API 中启用记录缓存？ 5

不要打印kafka-console-consumer警告 4

Apache Kafka - 磁盘和代理之间的负载不均匀 2

如何使用java获得kafka滞后 2

HDF 模式注册和 Confluent 注册之间的主要区别是什么？ 2

从 Kafka 死信队列重试消息的最佳实践是什么 1

Kafka connect docker image - 无法找到任何实现 Connector 且名称与 ElasticsearchSinkConnector 匹配的类 1

我应该在MySQL中使用日期时间或时间戳数据类型吗？ 2598

你如何设置,清除和切换一个位？ 2454

如何将Git存储库克隆到特定文件夹中？ 2083

如何修改指定的提交？ 2077

查看未发布的Git提交 1649

喜欢构成而不是继承？ 1538

如何获取所有Git分支 1371

如何在Linux shell脚本中提示是/否/取消输入？ 1352

你怎么能加速Eclipse？ 1258

如何获得最近提交的Git分支列表？ 1197