Pandas按组聚合和列排序

Question

Pandas按组聚合和列排序

bea*_*rdc 54 python sorting group-by dataframe pandas

给出以下数据帧

In [31]: rand = np.random.RandomState(1)
         df = pd.DataFrame({'A': ['foo', 'bar', 'baz'] * 2,
                            'B': rand.randn(6),
                            'C': rand.rand(6) > .5})

In [32]: df
Out[32]:      A         B      C
         0  foo  1.624345  False
         1  bar -0.611756   True
         2  baz -0.528172  False
         3  foo -1.072969   True
         4  bar  0.865408  False
         5  baz -2.301539   True

Run Code Online (Sandbox Code Playgroud)

我想在group(A)中按聚合的总和B,然后按C(未聚合)中的值对其进行排序.所以基本上得到A组的顺序

In [28]: df.groupby('A').sum().sort('B')
Out[28]:             B  C
         A               
         baz -2.829710  1
         bar  0.253651  1
         foo  0.551377  1

Run Code Online (Sandbox Code Playgroud)

然后通过True/False,这样它最终看起来像这样:

In [30]: df.ix[[5, 2, 1, 4, 3, 0]]
Out[30]: A         B      C
    5  baz -2.301539   True
    2  baz -0.528172  False
    1  bar -0.611756   True
    4  bar  0.865408  False
    3  foo -1.072969   True
    0  foo  1.624345  False

Run Code Online (Sandbox Code Playgroud)

如何才能做到这一点？

Answer 1

Zel*_*ny7 54

Groupby A:

In [0]: grp = df.groupby('A')

Run Code Online (Sandbox Code Playgroud)

在每个组中,对B求和并使用变换广播值.然后按B排序:

In [1]: grp[['B']].transform(sum).sort('B')
Out[1]:
          B
2 -2.829710
5 -2.829710
1  0.253651
4  0.253651
0  0.551377
3  0.551377

Run Code Online (Sandbox Code Playgroud)

通过从上面传递索引来索引原始df.这将按B值的总和重新排序A值:

In [2]: sort1 = df.ix[grp[['B']].transform(sum).sort('B').index]

In [3]: sort1
Out[3]:
     A         B      C
2  baz -0.528172  False
5  baz -2.301539   True
1  bar -0.611756   True
4  bar  0.865408  False
0  foo  1.624345  False
3  foo -1.072969   True

Run Code Online (Sandbox Code Playgroud)

最后,使用sort=False选项对"A"组中的"C"值进行排序,以保留步骤1中的A排序顺序:

In [4]: f = lambda x: x.sort('C', ascending=False)

In [5]: sort2 = sort1.groupby('A', sort=False).apply(f)

In [6]: sort2
Out[6]:
         A         B      C
A
baz 5  baz -2.301539   True
    2  baz -0.528172  False
bar 1  bar -0.611756   True
    4  bar  0.865408  False
foo 3  foo -1.072969   True
    0  foo  1.624345  False

Run Code Online (Sandbox Code Playgroud)

使用reset_indexwith 清理df索引drop=True:

In [7]: sort2.reset_index(0, drop=True)
Out[7]:
     A         B      C
5  baz -2.301539   True
2  baz -0.528172  False
1  bar -0.611756   True
4  bar  0.865408  False
3  foo -1.072969   True
0  foo  1.624345  False

Run Code Online (Sandbox Code Playgroud)

添加更多信息:sort()现在已弃用.建议使用DataFrame.sort_values() (4认同)
另外，我假设`groupby`的`sort = False`标志将返回任意的，不一定是排序的顺序（我猜出于某种原因，我将它们与python字典相关联）。但是，这个答案意味着可以保证标志保留数据帧行的原始顺序吗？ (2认同)
谢谢@ Zelazny7的回答.这正是我想要的.但是,在最新的pandas包中,为了实现相同的`Out [7]`,`inplace = True`应该添加到`Input [7]`中的参数中. (2认同)

Answer 2

Mar*_*ers 23

这是一个更简洁的方法......

df['a_bsum'] = df.groupby('A')['B'].transform(sum)
df.sort(['a_bsum','C'], ascending=[True, False]).drop('a_bsum', axis=1)

Run Code Online (Sandbox Code Playgroud)

第一行使用groupwise sum将数据列添加到数据框.第二行执行排序,然后删除额外的列.

结果:

    A       B           C
5   baz     -2.301539   True
2   baz     -0.528172   False
1   bar     -0.611756   True
4   bar      0.865408   False
3   foo     -1.072969   True
0   foo      1.624345   False

Run Code Online (Sandbox Code Playgroud)

注意:sort已弃用,请sort_values改用

Answer 3

And*_*den 8

一种方法是插入带有和的虚拟列以进行排序:

In [10]: sum_B_over_A = df.groupby('A').sum().B

In [11]: sum_B_over_A
Out[11]: 
A
bar    0.253652
baz   -2.829711
foo    0.551376
Name: B

in [12]: df['sum_B_over_A'] = df.A.apply(sum_B_over_A.get_value)

In [13]: df
Out[13]: 
     A         B      C  sum_B_over_A
0  foo  1.624345  False      0.551376
1  bar -0.611756   True      0.253652
2  baz -0.528172  False     -2.829711
3  foo -1.072969   True      0.551376
4  bar  0.865408  False      0.253652
5  baz -2.301539   True     -2.829711

In [14]: df.sort(['sum_B_over_A', 'A', 'B'])
Out[14]: 
     A         B      C   sum_B_over_A
5  baz -2.301539   True      -2.829711
2  baz -0.528172  False      -2.829711
1  bar -0.611756   True       0.253652
4  bar  0.865408  False       0.253652
3  foo -1.072969   True       0.551376
0  foo  1.624345  False       0.551376

Run Code Online (Sandbox Code Playgroud)

也许你会丢弃虚拟行:

In [15]: df.sort(['sum_B_over_A', 'A', 'B']).drop('sum_B_over_A', axis=1)
Out[15]: 
     A         B      C
5  baz -2.301539   True
2  baz -0.528172  False
1  bar -0.611756   True
4  bar  0.865408  False
3  foo -1.072969   True
0  foo  1.624345  False

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，11 月前
查看次数：	94028 次
最近记录：	9 年，9 月前