Pyspark 中 Union 的反义词是什么

Question

这似乎是一个微不足道的问题，但我在任何地方都找不到答案！

我有两个 RDD，一个包含矢量化文章，另一个包含一堆停用词。我的第一反应是使用过滤函数，但显然你不能让两个 RDD 以这种方式交互。我知道 Union 允许 RDD 进行交互，但我需要与之完全相反的操作，这样我就可以过滤掉第一个 RDD 中的所有停用词。

任何帮助将非常感激。

编辑：

RDD1_filtered = RDD1.filter(lambda word: word not in RDD2)

两个 RDD 都是单词列表。我收到一条错误消息，说我不能让两个 RDD 交互

Answer 1

听起来你想要减法函数：

>>> left = sc.parallelize(range(10))
>>> right = sc.parallelize([2, 6])
>>> left.subtract(right).collect()
[0, 1, 3, 4, 5, 7, 8, 9]