dev*_*ife 7 scala apache-spark
我有两个DataFrames:a和b.这是他们的样子:
a
-------
v1 string
v2 string
roughly hundreds of millions rows
b
-------
v2 string
roughly tens of millions rows
Run Code Online (Sandbox Code Playgroud)
我想保留DataFrame a中v2不存在的行b("v2").
我知道我可以使用左连接和过滤器,其中右侧为null或SparkSQL具有"不在"构造.我打赌有更好的方法.