Dil*_*aba 1 apache-kafka apache-flink
我有一个关于将数据放入 Kafka 主题的流作业,还有另一个使用 kafka 主题中的数据的流作业。我的Kafka集群的分区号的配置是3
。
当我将作业的并行度设置为 时4
,只有 3 个插槽忙于生成数据,并且只有 3 个消费者子任务获取数据。
考虑到任务槽数量的限制,我想将并行度改为1
. 但是,当我将作业的并行度设置为 时1
,只1 consumer task slot
获得了数据。
在我看来,即使我将并行度设置为1,我仍然将数据下沉到3个分区中,并且可以有3个消费者子任务消费数据。
为什么只有一个消费者子任务在这里工作?
Flink 将存储分区与计算分区解耦。
每个 Kafka 分区只能被一个子KafkaSource
任务消耗,但一个子KafkaSource
任务可以从一个或多个分区消耗。给定一个具有 3 个分区的主题,最多可以为 3 个 KafkaSource 分配工作。
将并行度设置为 1 时,将仅使用 1 个槽,并且该槽只能有 1 个 KafkaSource(和 1 个 KafkaSink)。但一个消费者可以处理所有 3 个分区。如果并行度设置为 3,则 3 个消费者可能很忙,每个消费者在自己的槽中处理一个分区。当并行度设置为 4 时,一个槽将有一个空闲的 Kafka 消费者。
在接收器中,默认情况下,每个实例KafkaSink
都会以循环方式写入每个分区。FlinkKafkaPartitioner
如果您希望控制每条记录写入哪个分区,您可以提供自定义,或者您可以使用 aKafkaSerializationSchema
并为每个 指定分区ProducerRecord
。
归档时间: |
|
查看次数: |
1794 次 |
最近记录: |