相关疑难解决方法(0)

在Spark Streaming中缓存DStream

我有一个Spark流传输过程,该过程将从kafka读取数据到DStream中。

在我的管道中,我做了两次(一个接一个):

DStream.foreachRDD(在RDD上转换并插入到目标中)。

(每次我进行不同的处理并将数据插入到不同的目的地)。

当我从Kafka读取数据后,我想知道DStream.cache是​​如何工作的吗?有可能做到吗?

现在该过程实际上是从Kafka读取数据两次吗?

请记住,不可能将两个foreachRDD放在一个中(因为两个路径完全不同,所以那里有状态转换-需要在DStream上应用...)

谢谢你的帮助

apache-spark spark-streaming kafka-consumer-api

1
推荐指数
1
解决办法
3426
查看次数