Pandas Groupby和Sum Only One Column

Question

Pandas Groupby和Sum Only One Column

所以我有一个数据帧df1,如下所示:

       A      B      C
1     foo    12    California
2     foo    22    California
3     bar    8     Rhode Island
4     bar    32    Rhode Island
5     baz    15    Ohio
6     baz    26    Ohio

Run Code Online (Sandbox Code Playgroud)

我希望按列A进行分组,然后将列B加起来,同时保持列C中的值.这样的事情:

      A       B      C
1    foo     34    California
2    bar     40    Rhode Island
3    baz     41    Ohio

Run Code Online (Sandbox Code Playgroud)

问题是,当我说df.groupby('A').sum()列C被删除返回

      B
A
bar  40
baz  41
foo  34

Run Code Online (Sandbox Code Playgroud)

我怎样才能解决这个问题并在分组和总结时保留C列？

Answer 1

Sev*_*yns 35

执行此操作的唯一方法是在您的groupby中包含C(groupby函数可以接受列表).

尝试一下:

df.groupby(['A','C'])['B'].sum()

Run Code Online (Sandbox Code Playgroud)

另外需要注意的是,如果在聚合后需要使用df,还可以使用as_index = False选项返回数据框对象.当我第一次和熊猫一起工作时,这个给了我一些问题.例:

df.groupby(['A','C'], as_index=False)['B'].sum()

Run Code Online (Sandbox Code Playgroud)

Answer 2

Kar*_*tik 14

如果您不在乎 C 列中的内容而只想要该nth值，则可以这样做：

df.groupby('A').agg({'B' : 'sum',
                     'C' : lambda x: x.iloc[n]})

Run Code Online (Sandbox Code Playgroud)

Answer 3

小智 10

另一种选择是使用groupby.agg并使用firstcolumn 上的方法"C"。

out = df.groupby('A', as_index=False, sort=False).agg({'B':'sum', 'C':'first'})

Run Code Online (Sandbox Code Playgroud)

输出：

     A   B             C
0  foo  34    California
1  bar  40  Rhode Island
2  baz  41          Ohio

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，6 月前
查看次数：	38079 次
最近记录：	9 年，6 月前