小编loo*_*ass的帖子

pyspark 使用 agg 在 groupBy 之后连接字符串

在 pandas 数据框中,我能够做到

df2 = df.groupBy('name').agg({'id': 'first', 'grocery': ','.join})
Run Code Online (Sandbox Code Playgroud)

name        id        grocery
Mike        01        Apple
Mike        01        Orange
Kate        99        Beef
Kate        99        Wine
Run Code Online (Sandbox Code Playgroud)

name        id        grocery
Mike        01        Apple,Orange
Kate        99        Beef,Wine
Run Code Online (Sandbox Code Playgroud)

由于同一个人的多行 id 是相同的,所以我只为每个人取第一个,然后连接杂货店。

我似乎无法在 pyspark 中完成这项工作。我怎样才能在 pyspark 中做同样的事情?我希望杂货店是字符串而不是列表

python apache-spark pyspark

1
推荐指数
1
解决办法
3738
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1