我有一个Spark流传输过程,该过程将从kafka读取数据到DStream中。
在我的管道中,我做了两次(一个接一个):
DStream.foreachRDD(在RDD上转换并插入到目标中)。
(每次我进行不同的处理并将数据插入到不同的目的地)。
当我从Kafka读取数据后,我想知道DStream.cache是如何工作的吗?有可能做到吗?
现在该过程实际上是从Kafka读取数据两次吗?
请记住,不可能将两个foreachRDD放在一个中(因为两个路径完全不同,所以那里有状态转换-需要在DStream上应用...)
谢谢你的帮助