pandas groupby:我可以通过 MultiIndex 列的一级选择 agg 函数吗?

Dav*_*man 5 python pandas pandas-groupby

我有一个带有 MultiIndex 列的 Pandas DataFrame:

columns=pd.MultiIndex.from_tuples(
    [(c, i) for c in ['a', 'b'] for i in range(3)])
df = pd.DataFrame(np.random.randn(4, 6),
                  index=[0, 0, 1, 1],
                  columns=columns)
print(df)

          a                             b                    
          0         1         2         0         1         2
0  0.582804  0.753118 -0.900950 -0.914657 -0.333091 -0.965912
0  0.498002 -0.842624  0.155783  0.559730 -0.300136 -1.211412
1  0.727019  1.522160  1.679025  1.738350  0.593361  0.411907
1  1.253759 -0.806279 -2.177582 -0.099210 -0.839822 -0.211349
Run Code Online (Sandbox Code Playgroud)

我想按索引分组,并在a列上使用“min”聚合,在列上使用“sum”聚合b

我知道我可以通过创建一个 dict 来为每一列指定 agg 函数来做到这一点:

agg_dict = {'a': 'min', 'b': 'sum'}
full_agg_dict = {(c, i): agg_dict[c] for c in ['a', 'b'] for i in range(3)}
print(df.groupby(level=0).agg(full_agg_dict))

          a                             b                    
          0         1         2         0         1         2
0  0.498002 -0.842624 -0.900950 -0.354927 -0.633227 -2.177324
1  0.727019 -0.806279 -2.177582  1.639140 -0.246461  0.200558
Run Code Online (Sandbox Code Playgroud)

有没有更简单的方法?似乎应该有一种方法可以在agg_dict不使用full_agg_dict.

Qua*_*ang 2

我也会使用你的方法。但这是另一种(应该)有效的方法:

(df.stack(level=1)
   .groupby(level=[0,1])
   .agg({'a':'min','b':'sum'})
   .unstack(-1)
)
Run Code Online (Sandbox Code Playgroud)

由于某种原因groupby(level=[0,1]对我不起作用,所以我想出了:

(df.stack(level=1)
   .reset_index()
   .groupby(['level_0','level_1'])
   .agg({'a':'min','b':'sum'})
   .unstack('level_1')
)
Run Code Online (Sandbox Code Playgroud)

  • @SIA 这是“stack”的一个错误。当索引具有重复值时,代码创建不正确(然后在分组中使用)。`stack` 目前仅使用 `new_codes = [np.arange(N).repeat(levsize)]` 来生成新代码,从而忽略重复项。 (3认同)