使用 pandas 中的分组 .agg 计算加权平均值

Question

使用 pandas 中的分组 .agg 计算加权平均值

Ste*_*mer 4 python-3.x pandas pandas-groupby

我想使用pandas.agg()中的函数按组计算数据集中一列的平均值和另一列的加权平均值。我知道一些解决方案，但它们都不是很简洁。

此处发布了一个解决方案（pandas and groupby: how tocalculate Weighted Averages inside an agg，但它看起来仍然不是很灵活，因为权重列是硬编码在 lambda 函数定义中的。我正在寻找创建一种语法更接近这个：

( df .groupby(['group']) .agg(avg_x=('x', 'mean'), wt_avg_y=('y', 'weighted_mean', weights='weight') )
Run Code Online (Sandbox Code Playgroud)
这是一个完整的示例，其中的代码似乎不必要地复杂：

import pandas as pd import numpy as np # sample dataset df = pd.DataFrame({ 'group': ['a', 'a', 'b', 'b'], 'x': [1, 2, 3, 4], 'y': [5, 6, 7, 8], 'weights': [0.75, 0.25, 0.75, 0.25] }) df #>>> group x y weights #>>> 0 a 1 5 0.75 #>>> 1 a 2 6 0.25 #>>> 2 b 3 7 0.75 #>>> 3 b 4 8 0.25 # aggregation logic summary = pd.concat( [ df.groupby(['group']).x.mean(), df.groupby(['group']).apply(lambda x: np.average(x['y'], weights=x['weights'])) ], axis=1 ) # manipulation to format the output of the aggregation summary = summary.reset_index().rename(columns={'x': 'avg_x', 0: 'wt_avg_y'}) # final output summary #>>> group avg_x wt_avg_y #>>> 0 a 1.50 5.25 #>>> 1 b 3.50 7.25
Run Code Online (Sandbox Code Playgroud)

Answer 1

Ste*_*mer 8

.apply()在整个 DataFrame 上使用该方法是我能想到的最简单的解决方案，它不会对函数定义中的列名称进行硬编码。

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'group': ['a', 'a', 'b', 'b'],
    'x': [1, 2, 3, 4],
    'y': [5, 6, 7, 8],
    'weights': [0.75, 0.25, 0.75, 0.25]
})

summary = (
    df
    .groupby(['group'])
    .apply(
        lambda x: pd.Series([
            np.mean(x['x']),
            np.average(x['y'], weights=x['weights'])
        ], index=['avg_x', 'wt_avg_y'])
    )
    .reset_index()
)
# final output
summary
#>>>    group   avg_x   wt_avg_y
#>>> 0      a   1.50    5.25
#>>> 1      b   3.50    7.25

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，5 月前
查看次数：	7373 次
最近记录：	2 年，8 月前