小编Ami*_*wat的帖子

使用pyspark连接数据框的多列

假设我有一个列列表,例如:

col_list = ['col1','col2']
df = spark.read.json(path_to_file)
print(df.columns)
# ['col1','col2','col3']
Run Code Online (Sandbox Code Playgroud)

我需要通过串联col1和来创建一个新列col2。我不想在连接时对列名进行硬编码,但需要从列表中选择。

我怎样才能做到这一点?

apache-spark apache-spark-sql pyspark

1
推荐指数
1
解决办法
1606
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1