所以我有一个数据帧df1,如下所示:
A B C
1 foo 12 California
2 foo 22 California
3 bar 8 Rhode Island
4 bar 32 Rhode Island
5 baz 15 Ohio
6 baz 26 Ohio
Run Code Online (Sandbox Code Playgroud)
我希望按列A进行分组,然后将列B加起来,同时保持列C中的值.这样的事情:
A B C
1 foo 34 California
2 bar 40 Rhode Island
3 baz 41 Ohio
Run Code Online (Sandbox Code Playgroud)
问题是,当我说df.groupby('A').sum()列C被删除返回
B
A
bar 40
baz 41
foo 34
Run Code Online (Sandbox Code Playgroud)
我怎样才能解决这个问题并在分组和总结时保留C列?
Sev*_*yns 35
执行此操作的唯一方法是在您的groupby中包含C(groupby函数可以接受列表).
尝试一下:
df.groupby(['A','C'])['B'].sum()
Run Code Online (Sandbox Code Playgroud)
另外需要注意的是,如果在聚合后需要使用df,还可以使用as_index = False选项返回数据框对象.当我第一次和熊猫一起工作时,这个给了我一些问题.例:
df.groupby(['A','C'], as_index=False)['B'].sum()
Run Code Online (Sandbox Code Playgroud)
Kar*_*tik 14
如果您不在乎 C 列中的内容而只想要该nth值,则可以这样做:
df.groupby('A').agg({'B' : 'sum',
'C' : lambda x: x.iloc[n]})
Run Code Online (Sandbox Code Playgroud)
小智 10
另一种选择是使用groupby.agg并使用firstcolumn 上的方法"C"。
out = df.groupby('A', as_index=False, sort=False).agg({'B':'sum', 'C':'first'})
Run Code Online (Sandbox Code Playgroud)
输出:
A B C
0 foo 34 California
1 bar 40 Rhode Island
2 baz 41 Ohio
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
38079 次 |
| 最近记录: |