分布式互相关矩阵计算

Ros*_*hta 9 algorithm distributed distributed-computing cross-correlation apache-spark

如何以分布式方式计算大(> 10TB)数据集的皮尔森互相关矩阵?任何有效的分布式算法建议将不胜感激.

更新:我读了apache spark mlib相关的实现

Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala
Run Code Online (Sandbox Code Playgroud)

但对我来说,看起来所有的计算都发生在一个节点上,而且它并没有真正意义上的分布.

请点亮这里.我也尝试在3节点火花簇上执行它,下面是截图:

整个计算时间表 一个任务细节

正如你从第二张图片中看到的那样,在一个节点上提取数据然后正在进行计算.我在这里吗?

小智 5

首先,看看这个是否正确.然后,您可以参考以下任何一种实现:MPI/OpenMP:AgomezlMeismyles,MapReduce:VangjeeSeawolf42.在继续之前阅读本文也很有趣.另一方面,詹姆斯的论文提供了一些指示,如果你有兴趣计算对异常值有效的相关性.