Pyspark 中 Union 的反义词是什么

mad*_*aks 1 python apache-spark rdd pyspark

这似乎是一个微不足道的问题,但我在任何地方都找不到答案!

我有两个 RDD,一个包含矢量化文章,另一个包含一堆停用词。我的第一反应是使用过滤函数,但显然你不能让两个 RDD 以这种方式交互。我知道 Union 允许 RDD 进行交互,但我需要与之完全相反的操作,这样我就可以过滤掉第一个 RDD 中的所有停用词。

任何帮助将非常感激。

编辑:

RDD1_filtered = RDD1.filter(lambda word: word not in RDD2)

两个 RDD 都是单词列表。我收到一条错误消息,说我不能让两个 RDD 交互

san*_*ton 5

听起来你想要减法函数:

>>> left = sc.parallelize(range(10))
>>> right = sc.parallelize([2, 6])
>>> left.subtract(right).collect()
[0, 1, 3, 4, 5, 7, 8, 9]
Run Code Online (Sandbox Code Playgroud)