Pandas：用数据框中的平均值替换重复项

Question

Pandas：用数据框中的平均值替换重复项

我一直在处理 Pandas 中的一个数据框，其中包含重复条目以及列中的非重复条目。数据框看起来像这样：

    country_name  values  category
0   country_1     10       a
1   country_2     20       b
2   country_1     50       a
3   country_2     10       b
4   country_3     100      c
5   country_4     10       d

Run Code Online (Sandbox Code Playgroud)

我想写一些东西来转换（替换）重复项及其平均值在我的数据框中。理想的输出类似于以下内容：

    country_name  values    category
0   country_1      30        a
1   country_2      15        b
2   country_3      100       c
3   country_4      10        d

Run Code Online (Sandbox Code Playgroud)

我已经为此苦苦挣扎了一段时间，因此我将不胜感激任何帮助。我忘记添加类别栏。groupby()现在，当您调用该方法时，该方法的问题mean()不会返回category列。我的解决方案是采用数字列和具有重复项的列一起应用groupby().mean()，然后连接回分类列。所以我正在寻找一个比我所做的更短的解决方案。
当您处理许多分类列时，我的方法会变得乏味。

Answer 1

小智 5

您可以使用 df.groupby()：

df.groupby('country_name').mean().reset_index()

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年前
查看次数：	4406 次
最近记录：	4 年，8 月前