有没有办法由驱动程序重置火花累加器,以便执行器累加器也将被清理。
我有一个累加器,它实际上是一个列表>所有执行器将元组添加到累加器中,驱动程序读取它。问题是执行程序堆被填满了。
当驱动程序读取所有数据时,执行程序不需要本地数据。
谢谢
java accumulator apache-spark
我有一个很大的RDD需要花费很多时间collect.我想让每个分区通过使用将其内容写入文本文件mapPartitionsWithIndex.但这不是一种异步方法.
collect
mapPartitionsWithIndex
有没有人知道如何异步写出RDD内容?
apache-spark
apache-spark ×2
accumulator ×1
java ×1