Zha*_*Xin 5 python dataframe apache-spark apache-spark-sql pyspark
我遇到了一个问题,这是一个 for 循环程序。如下所示:
list = [1,2,3,4]
for index in list:
new_df_name = "user_" + index
new_df_name = origin_df1.join(origin_df2,'id','left')
Run Code Online (Sandbox Code Playgroud)
但“ new_df_name ”只是一个变量和字符串类型。
如何实现这些?
我认为,您真正需要的是拥有一个数据帧列表(不一定有任何特定名称),然后将它们全部合并在一起。
dataframes = [df1, df2, df3, etc... ]
res_df, tail_dfs = dataframes[0], dataframes[1:]
for df in tail_dfs:
res_df = res_df.unionAll(df)
Run Code Online (Sandbox Code Playgroud)
更新。评论中描述的联合的更好选择。