我正在尝试使用Spark Scala计算CSV文件中所有列的直方图.
我发现DoubleRDDFunctions支持直方图.所以我编码如下所示获取所有列的直方图.
创建RDD[double]
每一列和计算每个直方图RDD
使用DoubleRDDFunctions
var columnIndexArray = Array.tabulate(rdd.first().length) (_ * 1)
val histogramData = columnIndexArray.map(columns => {
rdd.map(lines => lines(columns)).histogram(6)
})
Run Code Online (Sandbox Code Playgroud)这是一个好方法吗?谁能提出一些更好的方法来解决这个问题?
提前致谢.