Nic*_*bel 2 python grouping outliers
我已经看到了几个解决我的问题的解决方案
但到目前为止他们还没有帮助我成功.
我相信以下解决方案是我需要的,但继续得到一个错误(我没有声誉点评论/问题):链接
(我收到以下错误,但在管理以下命令时我不明白在哪里.copy()或添加" inplace=True" df2=df.groupby('install_site').transform(replace):
SettingWithCopyWarning:尝试在DataFrame的切片副本上设置值.尝试使用.loc[row_indexer,col_indexer] = value替代
请参阅文档中的警告:链接
所以,我试图提出自己的版本,但我一直陷入困境.开始.
我有一个按时间索引的数据框,其中包含站点列(许多不同站点的字符串值)和浮点值.
time_index site val
Run Code Online (Sandbox Code Playgroud)
我想通过按站点分组的'val'列,并用NaN(每组)替换任何异常值(与平均值的+/- 3标准偏差).
当我使用以下函数时,我无法用我的True/Falses向量索引数据框:
def replace_outliers_with_nan(df, stdvs):
dfnew=pd.DataFrame()
for i, col in enumerate(df.sites.unique()):
dftmp = pd.DataFrame(df[df.sites==col])
idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
dftmp[idx==False]=np.nan #this is where the problem lies, I believe
dfnew[col] = dftmp
return dfnew
Run Code Online (Sandbox Code Playgroud)
另外,我担心上面的函数需要花费很长时间才能生成700万行,这就是为什么我希望使用groupby函数选项.
如果我理解正确,则无需迭代列.该解决方案替换了与NaN偏离三个以上组标准偏差的所有值.
def replace(group, stds):
group[np.abs(group - group.mean()) > stds * group.std()] = np.nan
return group
# df is your DataFrame
df.loc[:, df.columns != group_column] = df.groupby(group_column).transform(lambda g: replace(g, 3))
Run Code Online (Sandbox Code Playgroud)