Pandas groupby 在保留多个聚合的组内进行排序

Question

Pandas groupby 在保留多个聚合的组内进行排序

sfj*_*jac 5 python sorting pandas pandas-groupby

我想在由返回的组中应用排序和限制groupby，就像在这个问题中一样。但是，我有多个聚合，我希望所有聚合都保留在结果中。

这是一个简单的例子：

products = ["A", "B", "C", "D"]
stores = ["foo", "bar", "baz"]
n = 30

product_list = [products[i] for i in np.random.randint(0, len(products), n)]
store_list = [stores[i] for i in np.random.randint(0, len(stores), n)]
rating_list = np.random.random(n) * 5
sales_list = np.random.random(n) * 10000

df = pd.DataFrame(
    {'store': store_list, 
     'product': product_list, 
     'sales': sales_list, 
     'rating': rating_list})

df = df[['store', 'product', 'sales', 'rating']]

df[:5]

Run Code Online (Sandbox Code Playgroud)

我想通过storeandproduct和 bothsum和countthe分组sales，同时mean使用rating.

这很简单：

dfg = df.groupby(['store', 'product']).agg({'sales': ['sum', 'count'], 
                                            'rating': 'mean'})

Run Code Online (Sandbox Code Playgroud)

现在，我只想保留每组中评分最高的两个行。我能得到这个如下（使用有些直观的多层次扩展[我]咒语从1）：

g = dfg[('rating', 'mean')].groupby(
      level=0, group_keys=False).apply(
        lambda x: x.sort_values(ascending=False).head(2))
g

Run Code Online (Sandbox Code Playgroud)

这将返回以下内容Series：

store  product
bar    B          3.601135
       A          1.867449
baz    B          2.984196
       D          2.780500
foo    B          3.767912
       D          3.129346
Name: (rating, mean), dtype: float64

Run Code Online (Sandbox Code Playgroud)

但是我丢失了('sales', 'sum')和('sales', 'count')列。

我怀疑我需要以g.index某种方式提取和使用它，但无法对此进行排序（双关语）。

编辑：下面的答案设法提供了我正在寻找的组，但我真正想要的是一种稳定的排序，其中我不仅可以在每个组中获得前 N 个平均评分，而且组本身也是这样排序的第一组的评分最高，等等。在某种程度上，这只是锦上添花，因为我现在拥有我想要的价值观，并且希望报告更漂亮。

Answer 1

sfj*_*jac 5

我整理好了我需要将应用于un-indexed ，而不是索引分组表并执行后续groupby和sort_values上述操作，并明确指定要排序的列：sort_valuesDataFrame

g = dfg.groupby(level=0, group_keys=False).apply(
      lambda x: x.sort_values(('rating', 'mean'), ascending=False).head(2))

Run Code Online (Sandbox Code Playgroud)

给我想要的结果：

归档时间：	7 年，11 月前
查看次数：	8159 次
最近记录：	7 年，11 月前