如何根据groupby用平均值替换0值

Question

如何根据groupby用平均值替换0值

Nie*_*een 4 python replace transform pandas

我有一个具有两个特征的数据框：gps_height（数字）和区域（分类）。

gps_height 包含很多 0 值，在这种情况下是缺失值。我想用相干区域的平均值填充 0 值。

我的推理如下： 1.去掉零值，取gps_height的平均值，按地区分组

df[df.gps_height !=0].groupby(['region']).mean()

Run Code Online (Sandbox Code Playgroud)

但是如何用这些平均值替换我的数据框中的零值？

样本数据：

gps_height 区域 0 1390 Iringa 1 1400 Mara 2 0 Iringa 3 250 Iringa ...

Answer 1

jez*_*ael 7

用：

df = pd.DataFrame({'region':list('aaabbbccc'),
                   'gps_height':[2,3,0,3,4,5,1,0,0]})
print (df)
  region  gps_height
0      a           2
1      a           3
2      a           0
3      b           3
4      b           4
5      b           5
6      c           1
7      c           0
8      c           0

Run Code Online (Sandbox Code Playgroud)

替换0为缺失值，然后将NANs by替换fillna为means byGroupBy.transform每组：

df['gps_height'] = df['gps_height'].replace(0, np.nan)
df['gps_height']=df['gps_height'].fillna(df.groupby('region')['gps_height'].transform('mean'))
print (df)
  region  gps_height
0      a         2.0
1      a         3.0
2      a         2.5
3      b         3.0
4      b         4.0
5      b         5.0
6      c         1.0
7      c         1.0
8      c         1.0

Run Code Online (Sandbox Code Playgroud)

或者过滤掉0值，聚合means并映射所有0行：

m = df['gps_height'] != 0
s = df[m].groupby('region')['gps_height'].mean()
df.loc[~m, 'gps_height'] = df['region'].map(s)
#alternative
#df['gps_height'] = np.where(~m, df['region'].map(s), df['gps_height'])
print (df)
  region  gps_height
0      a         2.0
1      a         3.0
2      a         2.5
3      b         3.0
4      b         4.0
5      b         5.0
6      c         1.0
7      c         1.0
8      c         1.0

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，7 月前
查看次数：	2358 次
最近记录：	5 年，9 月前