数据框：使用 groupby 移动扩展平均值

Question

数据框：使用 groupby 移动扩展平均值

我想要扩展平均值给出不包括当前项目的结果，即项目之前的平均值。这是我要找的：

d = { 'home' : ['A', 'B', 'B', 'A', 'B', 'A', 'A'], 'away' : ['B', 'A','A', 'B', 'A', 'B', 'B'],
 'aw' : [1,0,0,0,1,0,np.nan],'hw' : [0,1,0,1,0,1, np.nan]}

df2 = pd.DataFrame(d, columns=['home', 'away', 'hw', 'aw'])
df2.index = range(1,len(df2) + 1)
df2['homewin_at_home'] = df2.groupby('home')['hw'].apply(pd.expanding_mean)

print df2

Run Code Online (Sandbox Code Playgroud)

结果：

  home away  hw  aw  homewin_at_home
1    A    B   0   1         0.000000
2    B    A   1   0         1.000000
3    B    A   0   0         0.500000
4    A    B   1   0         0.500000
5    B    A   0   1         0.333333
6    A    B   1   0         **0.666667**
7    A    B NaN NaN         0.666667

Run Code Online (Sandbox Code Playgroud)

突出显示的数字应0.5为：“A”在指数 = 6 处在此条目之前赢得 2 场主场比赛中的 1 场。相反，结果包括本场比赛的0.66. 实际输出应该是：

  home away  hw  aw  homewin_at_home
1    A    B   0   1              NaN
2    B    A   1   0              NaN
3    B    A   0   0         1.000000
4    A    B   1   0         0.000000
5    B    A   0   1         0.500000
6    A    B   1   0         0.500000
7    A    B NaN NaN         0.666667

Run Code Online (Sandbox Code Playgroud)

我尝试过的事情包括在 groupby 中添加.shift(1)和尝试切片[:-1]，但我无法让它工作。也想过引入辅助列，但不知道如何保留原始索引。

我在这里问了一个相关的问题，但我更喜欢这种方法而不是 group-apply-split 例程。任何帮助表示赞赏。

Answer 1

Ste*_*fan 5

这是你要找的吗？计算expanding_mean和shifts结果。

df['homewin_at_home'] = df.groupby('home')['hw'].apply(lambda x: pd.expanding_mean(x).shift())

Run Code Online (Sandbox Code Playgroud)

或者，对于更新版本的熊猫：

df['homewin_at_home'] = df.groupby('home')['hw'].apply(lambda x: x.expanding().mean().shift())

  home away  hw  aw  homewin_at_home
1    A    B   0   1              NaN
2    B    A   1   0              NaN
3    B    A   0   0         1.000000
4    A    B   1   0         0.000000
5    B    A   0   1         0.500000
6    A    B   1   0         0.500000
7    A    B NaN NaN         0.666667

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年前
查看次数：	1165 次
最近记录：	7 年，7 月前