Spark DataFrame类上的union()方法在哪里?

Mil*_*hev 7 java dataframe apache-spark apache-spark-sql

我正在使用Spark的JAVA连接器,并希望结合两个DataFrame,但奇怪的是DataFrame类只有unionAll?这是故意的,有没有办法结合两个DataFrames没有重复?

zer*_*323 17

这是故意的

如果认为可以安全地假设它是故意的.其他工会运营商也喜欢RDD.unionDataSet.union会保留重复.

如果你认为它是有道理的.虽然操作相当于UNION ALL只是一个逻辑操作,不需要数据访问或网络流量查找不同的元素需要随机播放,因此可能非常昂贵.

有没有办法结合两个DataFrames没有重复?

df1.unionAll(df2).distinct()
Run Code Online (Sandbox Code Playgroud)