小编Fra*_*sYL的帖子

Pyspark将结构数组转换为字符串

我在 Pyspark 中有以下数据框

+----+-------+-----+                                                            
|name|subject|score|
+----+-------+-----+
| Tom|   math|   90|
| Tom|physics|   70|
| Amy|   math|   95|
+----+-------+-----+
Run Code Online (Sandbox Code Playgroud)

我使用collect_liststructpyspark.sql.functions

df.groupBy('name').agg(collect_list(struct('subject', 'score')).alias('score_list'))
Run Code Online (Sandbox Code Playgroud)

获取以下数据框

+----+--------------------+
|name|          score_list|
+----+--------------------+
| Tom|[[math, 90], [phy...|
| Amy|        [[math, 95]]|
+----+--------------------+
Run Code Online (Sandbox Code Playgroud)

我的问题是如何将最后一列score_list转换为字符串并将其转储到 csv 文件中,如下所示

Tom     (math, 90) | (physics, 70)
Amy     (math, 95)
Run Code Online (Sandbox Code Playgroud)

感谢任何帮助,谢谢。

更新:是一个类似的问题,但并不完全相同,因为它直接从string另一个string. 就我而言,我想首先转移stringcollect_list<struct>并最终将其字符串化collect_list<struct>

python apache-spark-sql pyspark

3
推荐指数
1
解决办法
1961
查看次数

标签 统计

apache-spark-sql ×1

pyspark ×1

python ×1