Phi*_*ann 15 amazon-s3 apache-kafka confluent apache-kafka-connect
我期待产品电离并部署我的Kafka Connect应用程序.但是,我有两个关于tasks.max设置的问题,这是必需的并且具有很高的重要性,但细节对于实际设置此值的内容是模糊的.
我最简单的问题如下:如果我有一个带有n个分区的主题,我希望从中获取数据并写入某个接收器(在我的情况下,我写入S3),我应该将tasks.max设置为什么?我应该把它设置为n吗?我应该把它设置为2n吗?直观地说,似乎我想将值设置为n,这就是我一直在做的事情.
如果我更改我的Kafka主题并增加主题分区怎么办?如果我把它设置为n,我将不得不暂停我的Kafka连接器并增加tasks.max?如果我设置了2n的值,那么我的连接器应该自动增加它运行的并行度?
谢谢你的帮助!
Chr*_*tta 20
在Kafka Connect接收器中,任务本质上是消费者线程并接收要读取的分区.如果您有10个分区并且已tasks.max设置为5,则每个任务都会接收2个分区以读取和跟踪偏移量.如果您已配置tasks.max为高于分区计数的数字,则Connect将启动许多与其正在读取的主题的分区相等的任务.
如果更改主题的分区计数,则必须重新启动连接任务,如果tasks.max仍然大于分区计数,则Connect将启动许多任务.
编辑,刚发现ConnectorContext:https://kafka.apache.org/0100/javadoc/org/apache/kafka/connect/connector/ConnectorContext.html
必须编写连接器以包含此连接,但看起来如果主题发生更改(添加/删除分区),Connect可以重新配置连接器.
| 归档时间: |
|
| 查看次数: |
3409 次 |
| 最近记录: |