Nik*_*Tur 2 python group-by dataframe pandas pandas-groupby
我有一个目前看起来有点像这样的数据框。
import pandas as pd
In [161]: pd.DataFrame(np.c_[s,t],columns = ["M1","M2","M1","M2"])
Out[161]:
M1 M2 M1 M2
6/7 1 2 3 5
6/8 2 4 7 8
6/9 3 6 9 9
6/10 4 8 8 10
6/11 5 10 20 40
Run Code Online (Sandbox Code Playgroud)
除了从 M1 到 ~M340(有多个具有相同标题的列),而不是只有四列,大约有 1000 列。我想根据索引对与匹配列相关的值求和。理想情况下,结果数据框如下所示:
M1_sum M2_sum
6/7 4 7
6/8 9 12
6/9 12 15
6/10 12 18
6/11 25 50
Run Code Online (Sandbox Code Playgroud)
我想以某种方式应用“groupby”和“sum”函数,但不确定在处理具有多列并且某些列与其他 3 个列匹配而另一个可能只有一个其他列匹配的数据框时如何执行此操作(甚至 0 个其他列匹配)。
您可能想要groupby第一个级别,然后越过第二个轴,然后执行 a .sum(),例如:
>>> df.groupby(level=0,axis=1).sum().add_suffix('_sum')
M1_sum M2_sum
0 4 7
1 9 12
2 12 15
3 12 18
4 25 50
Run Code Online (Sandbox Code Playgroud)
如果我们将最后一列重命名为M1,它将再次正确分组:
>>> df
M1 M2 M1 M1
0 1 2 3 5
1 2 4 7 8
2 3 6 9 9
3 4 8 8 10
4 5 10 20 40
>>> df.groupby(level=0,axis=1).sum().add_suffix('_sum')
M1_sum M2_sum
0 9 2
1 17 4
2 21 6
3 22 8
4 65 10
Run Code Online (Sandbox Code Playgroud)