dask:如何分组,聚合而不丢失用于分组的列

Oml*_*ley 5 python group-by dask

对以下数据进行分组时,如何获得 SQL 样式的分组输出:

   item   frequency
    A      5
    A      9
    B      2
    B      4
    C      6

df.groupby(by = ["item"]).sum()
Run Code Online (Sandbox Code Playgroud)

结果如下:

  item   frequency
    A      14
    B      6
    C      6
Run Code Online (Sandbox Code Playgroud)

在 Pandas 中,它是通过设置as_index=False. 但是 dask 不支持 groupby 中的这个论点。它目前省略item列并返回带有frequency列的系列。

MRo*_*lin 5

也许.reset_index事后打电话?

  • 它是令人尴尬的并行,因此非常具有可扩展性 (3认同)