Spark:减去两个DataFrame

Question

在Spark版本1.2.0中,可以使用subtract2 SchemRDD秒来结束与第一个不同的内容

val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)

onlyNewData包含todaySchemRDD不存在的行yesterdaySchemaRDD.

如何DataFrames在Spark 1.3.0版本中实现这一目标？

Answer 1

根据api文档,做:

dataFrame1.except(dataFrame2)

将返回一个新的DataFrame,其中包含dataFrame1中的行,但不包含dataframe2中的行.

@KatyaHandler你可以通过`LEFT ANTI`加入来做到这一点.`dataFrame1.join(dataFrame2,"key_col","left_anti")` (7认同)
@KatyaHandler您可以在连接的数据帧密钥上使用`LEFT JOIN`和`IS NULL`.sql就是这样的:`SELECT*FROM df1 LEFT JOIN df2 ON df1.id = df2.id WHERE df2.id IS NULL (6认同)
如果我需要执行异常而不是整行,而只是一列,该怎么办？例如`dataFrame1`行除了`primary_key`没有出现在`dataFrame2`中的那些行？(看起来像RDD的`subtractByKey`,但最好是数据帧. (4认同)

Answer 2

在pyspark DOCS中,它将被减去

df1.subtract(df2)

Answer 3

从 Spark 1.3.0 开始，您可以使用joinwith'left_anti'选项：

df1.join(df2, on='key_column', how='left_anti')

这些是Pyspark API，但我猜 Scala 中也有相应的函数。

Answer 4

我试过减法，但结果不一致。如果我运行df1.subtract(df2)，并非所有 df1 行都显示在结果数据框中，这可能是由于distinct在文档中引用的。

exceptAll 解决了我的问题： df1.exceptAll(df2)