小编Ben*_*zzo的帖子

Apache Spark - foreach与foreachPartitions何时使用什么?

我想知道foreachPartitions,与foreach考虑我RDD为了对累加器变量执行一些求和的情况下的方法相比,由于更高的并行度,意志是否会产生更好的性能.

java foreach scala apache-spark

35
推荐指数
3
解决办法
4万
查看次数

是否可以在Kafka + SparkStreaming中获取特定的消息偏移量?

我正在尝试使用Spark Direct Stream获取并存储Kafka中特定消息的偏移量.查看Spark文档很容易获得每个分区的范围偏移量,但我需要的是在完全扫描队列后存储主题的每条消息的起始偏移量.

apache-kafka apache-spark spark-streaming kafka-consumer-api

6
推荐指数
1
解决办法
878
查看次数

Kafka Mirror Maker:消费者与消费者的线程编号和生产者编号

我想清楚地指出一个Mirror Maker的Kafka Parallelism模型.

对于我在消费者方面的理解:

  • 消费者集团是一组消费者.该组的每个消费者都可以从一个或多个主题中读取.

  • 该组的消费者可以拥有多个流,即从主题中读取的线程数,最佳做法是将一个线程用于分区.

我的疑问是:我们是否将多个线程的消费者与单线程或一个消费者挂钩?消费者群体是指一组消费者还是一个多线程消费者?

我发现很难从文档中指出这些问题,我想知道我是不是错了.

即使在生产者方面,这些考虑因素也是双向的吗?

apache-kafka kafka-consumer-api kafka-producer-api apache-kafka-connect

1
推荐指数
1
解决办法
827
查看次数