小编Dev*_*M S的帖子

如何使用Apache Spark Scala获取大型CSV/RDD [Array [double]]中所有列的直方图?

我正在尝试使用Spark Scala计算CSV文件中所有列的直方图.

我发现DoubleRDDFunctions支持直方图.所以我编码如下所示获取所有列的直方图.

  1. 获取列数
  2. 创建RDD[double] 每一列和计算每个直方图RDD使用DoubleRDDFunctions

    var columnIndexArray = Array.tabulate(rdd.first().length) (_ * 1)
    
    val histogramData = columnIndexArray.map(columns => {
      rdd.map(lines => lines(columns)).histogram(6) 
    })
    
    Run Code Online (Sandbox Code Playgroud)

这是一个好方法吗?谁能提出一些更好的方法来解决这个问题?

提前致谢.

csv scala histogram apache-spark rdd

8
推荐指数
1
解决办法
5353
查看次数

标签 统计

apache-spark ×1

csv ×1

histogram ×1

rdd ×1

scala ×1