Kafka 如何保证消费者不会重复读取同一条消息?

J.J*_*eam 4 apache-kafka

Kafka 如何保证消费者不会重复读取同一条消息?

或者说上面的场景有可能发生吗?同一条消息是否可以被单个或多个消费者读取两次?

sun*_*007 6

有很多场景会导致Consumer消费重复消息

  1. Producer 成功发布消息,但未能确认导致重试同一消息的原因
  2. 生产者发布了一批消息,但部分发布的消息失败。在这种情况下,它将重试并再次重新发送同一批次,这将导致重复
  3. 消费者从 Kafka 接收一批消息并手动提交其偏移量(enable.auto.commit=false)。如果消费者在提交到 Kafka 之前失败,下次消费者将再次消费相同的记录,从而在消费者端复制重复的记录。

为了保证不消耗重复的消息,作业的执行和提交偏移量必须是原子的,以保证消费者端的一次性传递语义。您可以使用以下参数来实现精确的一种语义。但请您理解,这会牺牲性能。

  1. 在生产者端启用幂等性,这将保证不会两次发布相同的消息enable.idempotence=true
  2. 定义的Transaction(isolation.level)为read_comfilledisolation.level=read_commissed

在Kafka Stream中,可以通过将Exactly-Once语义设置为true以使其成为单位事务来实现上述设置

幂等

幂等传递使生产者能够在单个生产者的生命周期内将消息准确地写入 Kafka 一次到主题的特定分区,而不会丢失数据和每个分区的顺序。

事务(隔离级别)

事务使我们能够自动更新多个主题分区中的数据。一笔交易中包含的所有记录都会被成功保存,或者全部都不保存。它允许您在同一事务中提交消费者偏移量以及已处理的数据,从而允许端到端的一次语义。

生产者不会等待向 Kafka 写入消息,而生产者使用 beginTransaction、commitTransaction 和 abortTransaction(如果发生故障),消费者使用隔离。级别为 read_commissed 或 read_uncommissed

  • read_commissed:消费者将始终只读取已提交的数据。
  • read_uncommissed:按偏移顺序读取所有消息,无需等待事务提交

更详细的请参考参考