领导者更改后,Spring kafka 消费者不提交到 kafka 服务器

Svi*_*ana 4 apache-kafka kafka-consumer-api kafka-producer-api spring-kafka

我正在使用 spring-kafka 2.1.10.RELEASE。我有一个具有下一个属性的消费者(几乎复制了所有属性):

    auto.commit.interval.ms = 5000
    auto.offset.reset = earliest
    bootstrap.servers = [kafka1.local:9093, kafka2.local:9093, kafka3.local:9093]
    check.crcs = true
    client.id = kafkaListener-0
    connections.max.idle.ms = 540000
    enable.auto.commit = true
    exclude.internal.topics = true
    fetch.max.bytes = 52428800
    fetch.max.wait.ms = 500
    fetch.min.bytes = 1
    group.id = kafkaLisneterContainer
    heartbeat.interval.ms = 3000
    interceptor.classes = null
    internal.leave.group.on.close = true
    isolation.level = read_uncommitted
    max.poll.interval.ms = 300000
    max.poll.records = 50
    metadata.max.age.ms = 300000
    metrics.num.samples = 2
    metrics.recording.level = INFO
    metrics.sample.window.ms = 30000
    partition.assignment.strategy = [class org.apache.kafka.clients.consumer.RangeAssignor]
    receive.buffer.bytes = 65536
    reconnect.backoff.max.ms = 1000
    reconnect.backoff.ms = 50
    request.timeout.ms = 305000
    retry.backoff.ms = 100
    sasl.jaas.config = null
    sasl.kerberos.kinit.cmd = /usr/bin/kinit
    sasl.kerberos.min.time.before.relogin = 60000
    sasl.kerberos.service.name = null
    sasl.kerberos.ticket.renew.jitter = 0.05
    sasl.kerberos.ticket.renew.window.factor = 0.8
    sasl.mechanism = GSSAPI
    security.protocol = PLAINTEXT
    send.buffer.bytes = 131072
    session.timeout.ms = 10000
    ssl.cipher.suites = null
    ssl.enabled.protocols = [TLSv1.2, TLSv1.1, TLSv1]
    ssl.endpoint.identification.algorithm = null
    ssl.key.password = null
    ssl.keymanager.algorithm = SunX509
    ssl.keystore.location = null
    ssl.keystore.password = null
    ssl.keystore.type = JKS
    ssl.protocol = TLS
    ssl.provider = null
    ssl.secure.random.implementation = null
    ssl.trustmanager.algorithm = PKIX
    ssl.truststore.location = null
    ssl.truststore.password = null
    ssl.truststore.type = JKS
Run Code Online (Sandbox Code Playgroud)

我生产的 Apache Kafka 版本是 2.11-1.0.0-0pan4。有一个集群,里面有 3 个 kafka 节点:

在此处输入图片说明

面临严重问题,甚至无法在本地重现。这就是发生的事情:

  1. 我使用 kafka Producer 和 Consumer 启动了我的应用程序。

  2. 一切正常,直到我的主题的领导节点在 2019-01-17 06:47:39 没有改变:

2019-01-17/controller.2019-01-17-03.aaa-aa3.gz:2019-01-17 06:47:39,365 +0000 [controller-event-thread] [kafka.controller.KafkaController] INFO [ Controller id=3] 分区 topic_name-0 的新领导和 ISR 是 {"leader":1,"leader_epoch":3,"isr":[1,3]} (kafka.controller.KafkaController)

  1. 在那之后,我的消费者停止向 Kafka 提交偏移量。上次提交发生在更改领导者的同一小时同一分钟 - 2019 年 1 月 17 日 06:47。 在此处输入图片说明

4) 最神秘的:在应用程序中一切正常-a 工作正常。Spring-consumer 读取新消息并将它们发送到 kafka。我看到这样的日志。似乎spring消费者将其偏移量保存在内存中并将提交发送到远程kafka(没有错误等):

2019-01-23 14:03:20,975 +0000 [kafkaLisneterContainer-0-C-1] [Fetcher] DEBUG [Consumer clientId=kafkaListener-0, groupId=kafkaLisneterContainer] 获取 READ_UNCOMMITTED 在偏移量 1648a71164871 的分区(error=NONE, highWaterMark=164871, lastStableOffset = -1, logStartOffset = 116738, abortedTransactions = null, recordsSizeInBytes=0) 2019-01-23 14:03:20,975 +0000
[externalbetting] [kafkaLis-Cneter] [Fetcher] DEBUG [Consumer clientId=kafkaListener-0, groupId=kafkaLisneterContainer] 向节点 aaa-aa1.local:9093 (id: 1 rack: null) 2019-01-22019-01-22 将偏移 164871 处的分区 eaaa-1 的 READ_UNCOMMITTED 获取请求添加14:03:20,975

5)但无论如何,Apache kafka 中的滞后会增长。如果我重新启动我的应用程序,spring bean 使用者将被重新创建并丢失其内存中保存的偏移量。它将从 kafka 读取该 Lag 并处理该记录第二次。

请帮忙找钥匙!

Gar*_*ell 5

当您启用自动提交(Kafka 的默认设置)时,提交完全由 kafka 客户端管理,Spring 无法控制它。

将其设置为false将允许侦听器容器提交默认情况下在每批记录(轮询结果)之后或在将容器AckMode属性设置为每条记录之后执行的偏移量RECORD

当分区因重新平衡而被撤销时,容器还将可靠地提交任何挂起的偏移量。

我通常建议不要使用自动提交。