mad*_*aks 1 python apache-spark rdd pyspark
这似乎是一个微不足道的问题,但我在任何地方都找不到答案!
我有两个 RDD,一个包含矢量化文章,另一个包含一堆停用词。我的第一反应是使用过滤函数,但显然你不能让两个 RDD 以这种方式交互。我知道 Union 允许 RDD 进行交互,但我需要与之完全相反的操作,这样我就可以过滤掉第一个 RDD 中的所有停用词。
任何帮助将非常感激。
编辑:
RDD1_filtered = RDD1.filter(lambda word: word not in RDD2)
两个 RDD 都是单词列表。我收到一条错误消息,说我不能让两个 RDD 交互
听起来你想要减法函数:
>>> left = sc.parallelize(range(10))
>>> right = sc.parallelize([2, 6])
>>> left.subtract(right).collect()
[0, 1, 3, 4, 5, 7, 8, 9]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2462 次 |
| 最近记录: |