Puh*_*Puh 8 algorithm mapreduce graph-theory disjoint-sets apache-spark
我试图找到使用apache spark在大量数据上搜索不相交集(连接组件/ union-find)的算法.问题是数据量.甚至图顶点的Raw表示也不适合单机上的ram.边缘也不适合公羊.
源数据是hdfs上图形边缘的文本文件:"id1\t id2".
id作为字符串值存在,而不是int.
我发现天真的解决方案是:
[id1:id2] [id3:id4] [id1:id3][id1:[id2;id3]][id3:[id4]](flatMap) [id1:id1][id2:id1][id3:id1][id3:id3][id4:id3][id2:id1] -> [id1:id2]leftOuterJoin 第3阶段和第4阶段的rdds但这导致节点之间传输大量数据(改组)
有什么建议吗?
如果您正在使用图表,我建议您看一下这些库之一
它们都提供开箱即用的连接组件算法。
图X:
val graph: Graph = ...
val cc = graph.connectedComponents().vertices
Run Code Online (Sandbox Code Playgroud)
图框:
val graph: GraphFrame = ...
val cc = graph.connectedComponents.run()
cc.select("id", "component").orderBy("component").show()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
900 次 |
| 最近记录: |