Mik*_*sen 1 groovy apache-spark
假设我有这个示例作业(在Groovy w/Java API中):
def set1 = []
def set2 = []
0.upto(10) { set1 << it }
8.upto(20) { set2 << it }
def rdd1 = context.parallelize(set1)
def rdd2 = context.parallelize(set2)
//What next?
Run Code Online (Sandbox Code Playgroud)
如何获得两者之间的差值?我知道union可以创建一个包含这些RDD中所有数据的RDD,但是我该怎么做呢?
Daw*_*icz 12
如果你只想要一个减法减法就是一个答案.如果你想要"外部"集合试试:
rdd1.subtract(rdd2).union(rdd2.subtract(rdd1))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
6751 次 |
| 最近记录: |