pandas groupby 应用于多列以生成新列

Question

pandas groupby 应用于多列以生成新列

Jon*_*mmm 4 python pandas pandas-apply pandas-groupby

我喜欢使用 groupby-apply 在 Pandas 数据框中生成一个新列。

例如，我有一个数据框：

df = pd.DataFrame({'A':[1,2,3,4],'B':['A','B','A','B'],'C':[0,0,1,1]})

Run Code Online (Sandbox Code Playgroud)

并尝试通过 groupby-apply 生成一个新列“D”。

这有效：

df = df.assign(D=df.groupby('B').C.apply(lambda x: x - x.mean()))

Run Code Online (Sandbox Code Playgroud)

因为（我认为）它返回一个与数据帧具有相同索引的系列：

In [4]: df.groupby('B').C.apply(lambda x: x - x.mean())
Out[4]:
0   -0.5
1   -0.5
2    0.5
3    0.5
Name: C, dtype: float64

Run Code Online (Sandbox Code Playgroud)

但是，如果我尝试使用多列生成新列，则无法将其直接分配给新列。所以这不起作用：

 df.assign(D=df.groupby('B').apply(lambda x: x.A - x.C.mean()))

Run Code Online (Sandbox Code Playgroud)

回来

TypeError: incompatible index of inserted column with frame index

Run Code Online (Sandbox Code Playgroud)

事实上， groupby-apply 返回：

In [8]: df.groupby('B').apply(lambda x: x.A - x.C.mean())
Out[8]:
B
A  0    0.5
   2    2.5
B  1    1.5
   3    3.5
Name: A, dtype: float64

Run Code Online (Sandbox Code Playgroud)

我可以

df.groupby('B').apply(lambda x: x.A - x.C.mean()).reset_index(level=0,drop=True))

Run Code Online (Sandbox Code Playgroud)

但这似乎很冗长，我不确定这是否会一直按预期工作。

所以我的问题是：（i）pandas groupby-apply 何时返回类似索引的系列与多索引系列？(ii) 是否有更好的方法通过 groupby-apply 将新列分配给多个列？

Answer 1

WeN*_*Ben 5

对于这种情况，我认为不需要在 apply 中包含 A 列，我们可以使用 transform

df.A-df.groupby('B').C.transform('mean')
Out[272]: 
0    0.5
1    1.5
2    2.5
3    3.5
dtype: float64

Run Code Online (Sandbox Code Playgroud)

你可以把它分配回来

df['diff']= df.A-df.groupby('B').C.transform('mean')
df
Out[274]: 
   A  B  C  diff
0  1  A  0   0.5
1  2  B  0   1.5
2  3  A  1   2.5
3  4  B  1   3.5

Run Code Online (Sandbox Code Playgroud)

Answer 2

Sco*_*ton 5

让我们group_keys=False在groupby中使用

df.assign(D=df.groupby('B', group_keys=False).apply(lambda x: x.A - x.C.mean()))

Run Code Online (Sandbox Code Playgroud)

输出：

   A  B  C    D
0  1  A  0  0.5
1  2  B  0  1.5
2  3  A  1  2.5
3  4  B  1  3.5

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，3 月前
查看次数：	5526 次
最近记录：	8 年，3 月前