基于列减去2个pyspark数据帧

Question

基于列减去2个pyspark数据帧

Phi*_*lip 1 python dataframe pyspark pyspark-dataframes

我有 2 个 pyspark 数据框，

i
+---+-----+
| ID|COL_A|
+---+-----+
|  1|  123|
|  2|  456|
|  3|  111|
|  4|  678|
+---+-----+
j
+----+-----+
|ID_B|COL_B|
+----+-----+
|   2|  456|
|   3|  111|
|   4|  876|
+----+-----+

Run Code Online (Sandbox Code Playgroud)

我正在尝试根据特定列的值进行减去i，j即，存在于COL_Aof 中的值i不应存在于COL_Bof 中j。

预期输出应该是，

diff
+---+-----+
| ID|COL_A|
+---+-----+
|  1|  123|
|  4|  678|
+---+-----+

Run Code Online (Sandbox Code Playgroud)

这是我的代码

common = i.join(j.withColumnRenamed('COL_B', 'COL_A'), ['COL_A'], 'leftsemi')
diff = i.subtract(common)
diff.show()

Run Code Online (Sandbox Code Playgroud)

但是输出错误，

diff
+---+-----+
| ID|COL_A|
+---+-----+
|  2|  456|
|  1|  123|
|  4|  678|
|  3|  111|
+---+-----+

Run Code Online (Sandbox Code Playgroud)

我在这里做错了吗？提前致谢。

Answer 1

May*_*wal 5

尝试：

left_join = i.join(j, j.COL_B == i.COL_A,how='left')
left_join.filter(left_join.COL_A.isNull()).show()

Run Code Online (Sandbox Code Playgroud)

如果您将列名作为参数，您可以这样做：

left_join = i.join(j, j[colb] == i[cola],how='left')
left_join.filter(left_join[cola].isNull()).show()

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，3 月前
查看次数：	3306 次
最近记录：	5 年，10 月前