我需要比较我的spark应用程序中的两个数据帧.我通过了以下帖子. 如何获取两个DataFrame之间的差异?
但是,我不明白为什么这个方法在最佳答案中
df1.unionAll(df2).except(df1.intersect(df2))
Run Code Online (Sandbox Code Playgroud)
比问题中的更好
df1.except(df2).union(df2.except(df1))
Run Code Online (Sandbox Code Playgroud)
谁能解释一下?根据我的理解,后者使用两个较小的数据集,以前使用大型数据集.是因为后者作为联盟的一部分而独特吗?即使这样,如果两个数据帧更可能是具有相同记录的情况,我们在后一种情况下处理一个小数据集.