Mil*_*hev 7 java dataframe apache-spark apache-spark-sql
我正在使用Spark的JAVA连接器,并希望结合两个DataFrame,但奇怪的是DataFrame类只有unionAll?这是故意的,有没有办法结合两个DataFrames没有重复?
zer*_*323 17
这是故意的
如果认为可以安全地假设它是故意的.其他工会运营商也喜欢RDD.union并DataSet.union会保留重复.
如果你认为它是有道理的.虽然操作相当于UNION ALL只是一个逻辑操作,不需要数据访问或网络流量查找不同的元素需要随机播放,因此可能非常昂贵.
有没有办法结合两个DataFrames没有重复?
df1.unionAll(df2).distinct()
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
20215 次 |
| 最近记录: |