如何使用spark sql比较两个表？

Question

如何使用spark sql比较两个表？

cxc*_*xco 2 mysql sql-server apache-spark-sql

现在我需要使用 Spark sql 来比较两个表，我找到了一个 sql 服务器的答案，如下所示：

(SELECT *
 FROM   table1
 EXCEPT
 SELECT *
 FROM   table2)
UNION ALL
(SELECT *
 FROM   table2
 EXCEPT
 SELECT *
 FROM   table1)

Run Code Online (Sandbox Code Playgroud)

希望有人能告诉我如何在sql server中使用这样的spark sql？(不用关心特殊的col，只需使用*)

Answer 1

Shi*_*nsh 6

你可以这样做：

scala> val df1=sc.parallelize(Seq((1,2),(3,4))).toDF("a","b")
df1: org.apache.spark.sql.DataFrame = [a: int, b: int]

scala> val df2=sc.parallelize(Seq((1,2),(5,6))).toDF("a","b")
df2: org.apache.spark.sql.DataFrame = [a: int, b: int]

scala> df1.create
createOrReplaceTempView   createTempView

scala> df1.createTempView("table1")

scala> df2.createTempView("table2")

scala> spark.sql("select * from table1 EXCEPT select * from table2").show
+---+---+                                                                       
|  a|  b|
+---+---+
|  3|  4|
+---+---+


scala> spark.sql("(select * from table2 EXCEPT select * from table1) UNION ALL (select * from table1 EXCEPT select * from table2)").show
+---+---+                                                                       
|  a|  b|
+---+---+
|  5|  6|
|  3|  4|
+---+---+

Run Code Online (Sandbox Code Playgroud)

注意：在您的情况下，您必须从 JDBC 调用中创建数据帧，然后注册表并执行操作。

归档时间：	9 年，2 月前
查看次数：	8533 次
最近记录：	9 年，2 月前