相关疑难解决方法(0)

scipy.stats可以识别并掩盖明显的异常值吗？

使用scipy.stats.linregress,我在一些高度相关的x,y实验数据集上执行简单的线性回归,并且最初在视觉上检查每个x,y散点图以获得异常值.更一般地(即以编程方式)是否有一种方法来识别和屏蔽异常值？

python statistics scipy linear-regression

a d*_*ben

lucky-day

21
推荐指数

3
解决办法

2万
查看次数

Python从数据中删除异常值

我有一个数据框如下:

ID Value
A   70
A   80
B   75
C   10
B   50
A   1000
C   60
B   2000
..  ..

Run Code Online (Sandbox Code Playgroud)

我想按ID对这些数据进行分组,从分组数据中删除异常值(我们从boxplot中看到的那些),然后计算平均值.

至今

grouped = df.groupby('ID')

statBefore = pd.DataFrame({'mean': grouped['Value'].mean(), 'median': grouped['Value'].median(), 'std' : grouped['Value'].std()})

Run Code Online (Sandbox Code Playgroud)

如何查找异常值,删除它们并获取统计信息.

numpy scipy python-2.7 pandas

chi*_*n s

lucky-day

3
推荐指数

1
解决办法

1万
查看次数

如何在Python中用第95和第5个百分位数替换离群值？

我正在尝试对时间序列数据进行离群值处理，在该数据中，我想将> 95％的值替换为95％的值，将<5％的值替换为5％的值。我已经准备了一些代码，但是找不到所需的结果。

我正在尝试使用名为Cut的子函数创建OutlierTreatment函数。代码如下

def outliertreatment(df,high_limit,low_limit):
    df_temp=df['y'].apply(cut,high_limit,low_limit, extra_kw=1)
    return df_temp
def cut(column,high_limit,low_limit):
    conds = [column > np.percentile(column, high_limit),
             column < np.percentile(column, low_limit)]
    choices = [np.percentile(column, high_limit),
            np.percentile(column, low_limit)]
    return np.select(conds,choices,column)

Run Code Online (Sandbox Code Playgroud)

我希望在OutlierTreatment函数中发送数据帧，其中95作为high_limit和5作为low_limit。如何达到预期的效果？

python time-series outliers dataframe pandas

Ash*_*Das

2019 08-21

2
推荐指数

1
解决办法

157
查看次数