使用scipy.stats.linregress,我在一些高度相关的x,y实验数据集上执行简单的线性回归,并且最初在视觉上检查每个x,y散点图以获得异常值.更一般地(即以编程方式)是否有一种方法来识别和屏蔽异常值?
我有一个数据框如下:
ID Value
A 70
A 80
B 75
C 10
B 50
A 1000
C 60
B 2000
.. ..
Run Code Online (Sandbox Code Playgroud)
我想按ID对这些数据进行分组,从分组数据中删除异常值(我们从boxplot中看到的那些),然后计算平均值.
至今
grouped = df.groupby('ID')
statBefore = pd.DataFrame({'mean': grouped['Value'].mean(), 'median': grouped['Value'].median(), 'std' : grouped['Value'].std()})
Run Code Online (Sandbox Code Playgroud)
如何查找异常值,删除它们并获取统计信息.
我正在尝试对时间序列数据进行离群值处理,在该数据中,我想将> 95%的值替换为95%的值,将<5%的值替换为5%的值。我已经准备了一些代码,但是找不到所需的结果。
我正在尝试使用名为Cut的子函数创建OutlierTreatment函数。代码如下
def outliertreatment(df,high_limit,low_limit):
df_temp=df['y'].apply(cut,high_limit,low_limit, extra_kw=1)
return df_temp
def cut(column,high_limit,low_limit):
conds = [column > np.percentile(column, high_limit),
column < np.percentile(column, low_limit)]
choices = [np.percentile(column, high_limit),
np.percentile(column, low_limit)]
return np.select(conds,choices,column)
Run Code Online (Sandbox Code Playgroud)
我希望在OutlierTreatment函数中发送数据帧,其中95作为high_limit和5作为low_limit。如何达到预期的效果?
pandas ×2
python ×2
scipy ×2
dataframe ×1
numpy ×1
outliers ×1
python-2.7 ×1
statistics ×1
time-series ×1