小编anv*_*esh的帖子

如何在pyspark中找到两个rdd的交叉点?

我有两个rdds:

rdd1 = sc.parallelize([("www.page1.html", "word1"), ("www.page2.html", "word1"), 
    ("www.page1.html", "word3")])

rdd2 = sc.parallelize([("www.page1.html", 7.3), ("www.page2.html", 1.25), 
    ("www.page3.html", 5.41)])

intersection_rdd = rdd1.keys().intersection(rdd2.keys())       
Run Code Online (Sandbox Code Playgroud)

//当我这样做的时候,我只得到了交叉的关键点(www.page1.html,www.page2.html).

但我需要键和两个rdds的值.输出应如下所示:

[www.page1.html, (word1, word3, 7.3)]

[www.page2.html, (word1, 1.25)]
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

4
推荐指数
1
解决办法
3066
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1