Int*_*tor 42 dataframe apache-spark rdd
在Spark版本1.2.0中,可以使用subtract2 SchemRDD秒来结束与第一个不同的内容
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
Run Code Online (Sandbox Code Playgroud)
onlyNewData包含todaySchemRDD不存在的行yesterdaySchemaRDD.
如何DataFrames在Spark 1.3.0版本中实现这一目标?
Eri*_*oom 69
根据api文档,做:
dataFrame1.except(dataFrame2)
Run Code Online (Sandbox Code Playgroud)
将返回一个新的DataFrame,其中包含dataFrame1中的行,但不包含dataframe2中的行.
小智 35
在pyspark DOCS中,它将被减去
df1.subtract(df2)
Run Code Online (Sandbox Code Playgroud)
Ric*_*c S 17
从 Spark 1.3.0 开始,您可以使用joinwith'left_anti'选项:
df1.join(df2, on='key_column', how='left_anti')
Run Code Online (Sandbox Code Playgroud)
这些是Pyspark API,但我猜 Scala 中也有相应的函数。