PySpark Union 抛出 IllegalArgumentException：转置要求所有集合具有相同的大小

Question

这是我第一次在尝试合并两个 Spark Dataframe 时看到此错误。我试图从现有数据中提取欺诈记录，然后采取差异来获取非欺诈案例并将两者合并，但出现以下错误：

这是 DF 的快照：

如果需要，很乐意提供有关 DF 操作的更多信息。PySpark：2.4.5 Python：3.6.9

Answer 1

我不知道为什么......但如果你.distinct()在 union 之后使用，将会起作用：

res_df = df1.union(df2).distinct()
res_df.count()