分布式互相关矩阵计算

Question

分布式互相关矩阵计算

Ros*_*hta 9 algorithm distributed distributed-computing cross-correlation apache-spark

如何以分布式方式计算大(> 10TB)数据集的皮尔森互相关矩阵？任何有效的分布式算法建议将不胜感激.

更新:我读了apache spark mlib相关的实现

Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

Run Code Online (Sandbox Code Playgroud)

但对我来说,看起来所有的计算都发生在一个节点上,而且它并没有真正意义上的分布.

请点亮这里.我也尝试在3节点火花簇上执行它,下面是截图:

正如你从第二张图片中看到的那样,在一个节点上提取数据然后正在进行计算.我在这里吗？

Answer 1

小智 5

首先,看看这个是否正确.然后,您可以参考以下任何一种实现:MPI/OpenMP:Agomezl或Meismyles,MapReduce:Vangjee或Seawolf42.在继续之前阅读本文也很有趣.另一方面,詹姆斯的论文提供了一些指示,如果你有兴趣计算对异常值有效的相关性.

归档时间：	9 年，3 月前
查看次数：	710 次
最近记录：	7 年，1 月前