Ash*_*Das 2 python time-series outliers dataframe pandas
我正在尝试对时间序列数据进行离群值处理,在该数据中,我想将> 95%的值替换为95%的值,将<5%的值替换为5%的值。我已经准备了一些代码,但是找不到所需的结果。
我正在尝试使用名为Cut的子函数创建OutlierTreatment函数。代码如下
def outliertreatment(df,high_limit,low_limit):
df_temp=df['y'].apply(cut,high_limit,low_limit, extra_kw=1)
return df_temp
def cut(column,high_limit,low_limit):
conds = [column > np.percentile(column, high_limit),
column < np.percentile(column, low_limit)]
choices = [np.percentile(column, high_limit),
np.percentile(column, low_limit)]
return np.select(conds,choices,column)
Run Code Online (Sandbox Code Playgroud)
我希望在OutlierTreatment函数中发送数据帧,其中95作为high_limit和5作为low_limit。如何达到预期的效果?
我不确定这种方法是否适合处理异常值,但是要实现您想要的clip功能,功能是否有用。它将边界外的值分配给边界值。您可以在文档中阅读更多内容。
data=pd.Series(np.random.randn(100))
data.clip(lower=data.quantile(0.05), upper=data.quantile(0.95))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
157 次 |
| 最近记录: |