Gui*_* EB 5 python dask dask-distributed
我想知道在与Dask进行groupBy聚合后,是否有可能从给定的列中获得多个唯一项。我在文档中看不到任何类似信息。它在pandas数据框上可用,并且非常有用。我已经看到一些与此相关的问题,但是我不确定它是否已实现。
有人可以给我一些提示吗?
要扩展此注释,nunique您可以直接在 SeriesGroupBy 上使用:
import pandas as pd
import dask.dataframe as dd
d = {'col1': [1, 2, 3, 4], 'col2': [5, 6, 7, 8]}
df = pd.DataFrame(data=d)
ddf = dd.from_pandas(df, npartitions=2)
ddf.groupby(['col1']).col2.nunique().to_frame().compute()
Run Code Online (Sandbox Code Playgroud)
有关更多讨论,请参阅https://github.com/dask/dask/issues/6280 。