Kafka Connect Distributed tasks.max配置设置的理想价值？

Question

Kafka Connect Distributed tasks.max配置设置的理想价值？

Phi*_*ann 15 amazon-s3 apache-kafka confluent apache-kafka-connect

我期待产品电离并部署我的Kafka Connect应用程序.但是,我有两个关于tasks.max设置的问题,这是必需的并且具有很高的重要性,但细节对于实际设置此值的内容是模糊的.

我最简单的问题如下:如果我有一个带有n个分区的主题,我希望从中获取数据并写入某个接收器(在我的情况下,我写入S3),我应该将tasks.max设置为什么？我应该把它设置为n吗？我应该把它设置为2n吗？直观地说,似乎我想将值设置为n,这就是我一直在做的事情.

如果我更改我的Kafka主题并增加主题分区怎么办？如果我把它设置为n,我将不得不暂停我的Kafka连接器并增加tasks.max？如果我设置了2n的值,那么我的连接器应该自动增加它运行的并行度？

谢谢你的帮助!

Answer 1

Chr*_*tta 20

在Kafka Connect接收器中,任务本质上是消费者线程并接收要读取的分区.如果您有10个分区并且已tasks.max设置为5,则每个任务都会接收2个分区以读取和跟踪偏移量.如果您已配置tasks.max为高于分区计数的数字,则Connect将启动许多与其正在读取的主题的分区相等的任务.

如果更改主题的分区计数,则必须重新启动连接任务,如果tasks.max仍然大于分区计数,则Connect将启动许多任务.

编辑,刚发现ConnectorContext:https://kafka.apache.org/0100/javadoc/org/apache/kafka/connect/connector/ConnectorContext.html

必须编写连接器以包含此连接,但看起来如果主题发生更改(添加/删除分区),Connect可以重新配置连接器.

@Vivek，分布式模式将尽可能均匀地在所有正在运行的实例上分配任务。 (2认同)

归档时间：	8 年，10 月前
查看次数：	3409 次
最近记录：	6 年，2 月前