用数据框中组的平均值替换列值

Question

用数据框中组的平均值替换列值

我有一个 DataFrame 作为

Page    Line    y
1        2      3.2
1        2      6.1
1        3      7.1
2        4      8.5
2        4      9.1

Run Code Online (Sandbox Code Playgroud)

我必须用分组中的平均值替换 y 列。我可以使用此代码使用一列进行分组。

df['y'] = df['y'].groupby(df['Page'], group_keys=False).transform('mean')

Run Code Online (Sandbox Code Playgroud)

我试图通过“页面”和“行”的组来替换 y 的值。像这样的东西，

Page    Line    y
1        2      4.65
1        2      4.65
1        3      7.1
2        4      8.8
2        4      8.8

Run Code Online (Sandbox Code Playgroud)

我在这个网站上搜索了很多答案，但找不到这个应用程序。将 python3 与熊猫一起使用。

Answer 1

jez*_*ael 8

您需要列名称列表，groupby参数by：

by : 映射、函数、标签或标签列表

用于确定 groupby 的组。如果 by 是一个函数，则在对象索引的每个值上调用它。如果传递了 dict 或 Series，则 Series 或 dict VALUES 将用于确定组（首先对齐 Series 的值；请参阅 .align() 方法）。如果传递了 ndarray，则按原样使用这些值来确定组。标签或标签列表可以通过 self 中的列传递给 group。请注意，元组被解释为（单个）键。

df['y'] = df.groupby(['Page', 'Line'])['y'].transform('mean') 
print (df)
   Page  Line     y
0     1     2  4.65
1     1     2  4.65
2     1     3  7.10
3     2     4  8.80
4     2     4  8.80

Run Code Online (Sandbox Code Playgroud)

您的解决方案应更改为此语法糖 - 通过列表中的系列：

df['y'] = df['y'].groupby([df['Page'], df['Line']]).transform('mean')

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，8 月前
查看次数：	3238 次
最近记录：	7 年，8 月前