小编Har*_*rry的帖子

合并pyspark中多行的文本

我使用以下代码创建了一个PySpark数据框

testlist = [
             {"category":"A","name":"A1"}, 
             {"category":"A","name":"A2"}, 
             {"category":"B","name":"B1"},
             {"category":"B","name":"B2"}
]

spark_df = spark.createDataFrame(testlist)
Run Code Online (Sandbox Code Playgroud)

结果:

category    name
A           A1
A           A2
B           B1
B           B2
Run Code Online (Sandbox Code Playgroud)

我想使其显示如下:

category    name
A           A1, A2
B           B1, B2
Run Code Online (Sandbox Code Playgroud)

我尝试了以下无效的代码

spark_df.groupby('category').agg('name', lambda x:x + ', ')
Run Code Online (Sandbox Code Playgroud)

谁能帮助您确定我做错了什么以及实现这一目标的最佳方法?

pyspark spark-dataframe

3
推荐指数
1
解决办法
3291
查看次数

标签 统计

pyspark ×1

spark-dataframe ×1