小编loo*_*ass的帖子

在 pandas 数据框中，我能够做到

df2 = df.groupBy('name').agg({'id': 'first', 'grocery': ','.join})

从

name        id        grocery
Mike        01        Apple
Mike        01        Orange
Kate        99        Beef
Kate        99        Wine

到

name        id        grocery
Mike        01        Apple,Orange
Kate        99        Beef,Wine

由于同一个人的多行 id 是相同的，所以我只为每个人取第一个，然后连接杂货店。

我似乎无法在 pyspark 中完成这项工作。我怎样才能在 pyspark 中做同样的事情？我希望杂货店是字符串而不是列表

1
推荐指数

1
解决办法

3738
查看次数

小编loo_ass的帖子