小编Puh*_*Puh的帖子

我试图找到使用apache spark在大量数据上搜索不相交集(连接组件/ union-find)的算法.问题是数据量.甚至图顶点的Raw表示也不适合单机上的ram.边缘也不适合公羊.

源数据是hdfs上图形边缘的文本文件:"id1\t id2".

id作为字符串值存在,而不是int.

我发现天真的解决方案是:

但这导致节点之间传输大量数据(改组)

有什么建议吗？

8
推荐指数

1
解决办法

900
查看次数

小编Puh_Puh的帖子