我想知道foreachPartitions,与foreach考虑我RDD为了对累加器变量执行一些求和的情况下的方法相比,由于更高的并行度,意志是否会产生更好的性能.
我正在尝试使用Spark Direct Stream获取并存储Kafka中特定消息的偏移量.查看Spark文档很容易获得每个分区的范围偏移量,但我需要的是在完全扫描队列后存储主题的每条消息的起始偏移量.
apache-kafka apache-spark spark-streaming kafka-consumer-api
我想清楚地指出一个Mirror Maker的Kafka Parallelism模型.
对于我在消费者方面的理解:
消费者集团是一组消费者.该组的每个消费者都可以从一个或多个主题中读取.
该组的消费者可以拥有多个流,即从主题中读取的线程数,最佳做法是将一个线程用于分区.
我的疑问是:我们是否将多个线程的消费者与单线程或一个消费者挂钩?消费者群体是指一组消费者还是一个多线程消费者?
我发现很难从文档中指出这些问题,我想知道我是不是错了.
即使在生产者方面,这些考虑因素也是双向的吗?
apache-kafka kafka-consumer-api kafka-producer-api apache-kafka-connect