groupby.value_counts()之后的pandas reset_index

Question

groupby.value_counts()之后的pandas reset_index

muo*_*uon 22 python data-manipulation dataframe pandas data-science

我正在尝试将列分组并计算另一列上的值计数.

import pandas as pd
dftest = pd.DataFrame({'A':[1,1,1,1,1,1,1,1,1,2,2,2,2,2], 
               'Amt':[20,20,20,30,30,30,30,40, 40,10, 10, 40,40,40]})

print(dftest)

Run Code Online (Sandbox Code Playgroud)

dftest看起来像

Run Code Online (Sandbox Code Playgroud)

执行分组

grouper = dftest.groupby('A')
df_grouped = grouper['Amt'].value_counts()

Run Code Online (Sandbox Code Playgroud)

这使

   A  Amt
1  30     4
   20     3
   40     2
2  40     3
   10     2
Name: Amt, dtype: int64

Run Code Online (Sandbox Code Playgroud)

我想要的是保持每组的前两行

此外,当我尝试时,我被一个错误困惑 reset_index

df_grouped.reset_index()

Run Code Online (Sandbox Code Playgroud)

这给出了以下错误

df_grouped.reset_index()ValueError:无法插入Amt,已经存在

Answer 1

jez*_*ael 35

你需要参数name的reset_index,因为Series名字是一样的级别之一的名称MultiIndex:

df_grouped.reset_index(name='count')

Run Code Online (Sandbox Code Playgroud)

另一种解决方案是名称rename Series

print (df_grouped.rename('count').reset_index())

   A  Amt  count
0  1   30      4
1  1   20      3
2  1   40      2
3  2   40      3
4  2   10      2

Run Code Online (Sandbox Code Playgroud)

更常见的解决方案value_counts是聚合size:

df_grouped1 =  dftest.groupby(['A','Amt']).size().rename('count').reset_index()

print (df_grouped1)
   A  Amt  count
0  1   20      3
1  1   30      4
2  1   40      2
3  2   10      2
4  2   40      3

Run Code Online (Sandbox Code Playgroud)

在较新的熊猫版本中不再使用“名称”：https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html (3认同)
你可以将nlargest应用于groupby,所以一种方法可以是再次对你的等级0进行分组:`df_grouped.groupby(level = 0).nlargest(2)` (2认同)

归档时间：	9 年，4 月前
查看次数：	19862 次
最近记录：	9 年，4 月前