pyspark 数据帧的联合列表

Mih*_*iha 7 pyspark

假设我有一个 pyspark 数据帧列表:[df1, df2, ...],我想要的是将它们联合起来(所以实际上是这样做的df1.union(df2).union(df3)...。实现这一目标的最佳实践是什么?

sam*_*art 12

您可以使用reduce并将该union函数与数据帧列表一起传递。

import pyspark
from functools import reduce

list_of_sdf = [df1, df2, ...]
final_sdf = reduce(pyspark.sql.dataframe.DataFrame.unionByName, list_of_sdf)
Run Code Online (Sandbox Code Playgroud)

final_sdf有附加数据。