我使用以下代码创建了一个PySpark数据框
testlist = [
{"category":"A","name":"A1"},
{"category":"A","name":"A2"},
{"category":"B","name":"B1"},
{"category":"B","name":"B2"}
]
spark_df = spark.createDataFrame(testlist)
Run Code Online (Sandbox Code Playgroud)
结果:
category name
A A1
A A2
B B1
B B2
Run Code Online (Sandbox Code Playgroud)
我想使其显示如下:
category name
A A1, A2
B B1, B2
Run Code Online (Sandbox Code Playgroud)
我尝试了以下无效的代码
spark_df.groupby('category').agg('name', lambda x:x + ', ')
Run Code Online (Sandbox Code Playgroud)
谁能帮助您确定我做错了什么以及实现这一目标的最佳方法?