PySpark Union 抛出 IllegalArgumentException:转置要求所有集合具有相同的大小

Vai*_*hav 5 pyspark

这是我第一次在尝试合并两个 Spark Dataframe 时看到此错误。我试图从现有数据中提取欺诈记录,然后采取差异来获取非欺诈案例并将两者合并,但出现以下错误:

联合错误

这是 DF 的快照:

在此输入图像描述

如果需要,很乐意提供有关 DF 操作的更多信息。PySpark:2.4.5 Python:3.6.9

小智 0

我不知道为什么......但如果你.distinct()在 union 之后使用,将会起作用:

res_df = df1.union(df2).distinct()
res_df.count()
Run Code Online (Sandbox Code Playgroud)