我有一个关于合并的问题。目前尚不清楚它的副作用。我有以下RDD:
JavaRDD<String> someStrings = //...
JavaRDD<String> coalescedStrings = someStrings.coalesce(100, false); //descreasing
Run Code Online (Sandbox Code Playgroud)
那么,实际发生了什么?如果我进行someStrings一些操作会影响coalescedStrings吗?
在我的代码中,我有一系列数据帧,我想过滤掉空的数据帧.我做的事情如下:
Seq(df1, df2).map(df => df.count() > 0)
Run Code Online (Sandbox Code Playgroud)
然而,这需要非常长的时间,大约2个数据帧的每个100k行消耗大约7分钟.
我的问题:为什么Spark的count()实现很慢.有解决方法吗?