假设我有一个 pyspark 数据帧列表:[df1, df2, ...],我想要的是将它们联合起来(所以实际上是这样做的df1.union(df2).union(df3)...。实现这一目标的最佳实践是什么?
sam*_*art 12
您可以使用reduce并将该union函数与数据帧列表一起传递。
import pyspark
from functools import reduce
list_of_sdf = [df1, df2, ...]
final_sdf = reduce(pyspark.sql.dataframe.DataFrame.unionByName, list_of_sdf)
Run Code Online (Sandbox Code Playgroud)
将final_sdf有附加数据。
| 归档时间: |
|
| 查看次数: |
8860 次 |
| 最近记录: |