dev*_*ife 7 scala apache-spark
我有两个DataFrames:a
和b
.这是他们的样子:
a
-------
v1 string
v2 string
roughly hundreds of millions rows
b
-------
v2 string
roughly tens of millions rows
Run Code Online (Sandbox Code Playgroud)
我想保留DataFrame a
中v2
不存在的行b("v2")
.
我知道我可以使用左连接和过滤器,其中右侧为null或SparkSQL具有"不在"构造.我打赌有更好的方法.
归档时间: |
|
查看次数: |
4175 次 |
最近记录: |