相关疑难解决方法(0)

我需要比较我的spark应用程序中的两个数据帧.我通过了以下帖子. 如何获取两个DataFrame之间的差异？

但是,我不明白为什么这个方法在最佳答案中

df1.unionAll(df2).except(df1.intersect(df2))

比问题中的更好

df1.except(df2).union(df2.except(df1))

谁能解释一下？根据我的理解,后者使用两个较小的数据集,以前使用大型数据集.是因为后者作为联盟的一部分而独特吗？即使这样,如果两个数据帧更可能是具有相同记录的情况,我们在后一种情况下处理一个小数据集.

6
推荐指数

1
解决办法

474
查看次数