从一组数据中排除异常值的有效且准确的算法是什么？

Ash*_*wal 11 statistics outliers

我有200个数据行(意味着一小组数据).我想进行一些统计分析,但在此之前我想排除异常值.

为此目的有哪些潜在的算法？准确性是一个值得关注的问题.

我对Stats很新,所以需要非常基本的帮助.

总的来说,这样的问题难以解决的问题是,对异常值没有严格的定义.我实际上建议不要使用一定数量的标准偏差作为截止值,原因如下:

一些异常值会对您的标准偏差估计产生巨大影响,因为标准偏差不是一个稳健的统计数据.
标准差的解释在很大程度上取决于数据的分布.如果您的数据是正态分布的,那么3个标准差很多,但如果它是,例如,对数正态分布,那么3个标准偏差不是很多.

有一些好的方法可以继续:

保留所有数据,并使用稳健的统计数据(中位数代替平均值,Wilcoxon检验代替T检验等).如果您的数据集很大,可能会很好.
修剪或Winsorize您的数据.修剪意味着去除顶部和底部x%.Winsorizing意味着分别将顶部和底部x%设置为xth和1-xth百分位数值.
如果您有一个小数据集,您可以只绘制数据并手动检查它以获得难以置信的值.
如果您的数据看起来相当接近正态分布(没有重尾和大致对称),那么使用中位数绝对偏差而不是标准差作为您的检验统计量,并过滤到中位数的3或4个中位数绝对偏差.

首先绘制异常值的杠杆作用,然后进行一些良好的"眼间创伤"(也就是看散点图).

很多统计软件包都有异常/残留诊断,但我更喜欢Cook's D.如果你想使用mtsu.edu的这个公式,你可以手工计算它(原始链接已经死了,这来自archive.org).

归档时间：	16 年，1 月前
查看次数：	14936 次
最近记录：	9 年，10 月前

统计:Python中的组合 114

我如何在python中进行F测试 28

如何从数据表中计算多变量公式 6

scipy中的时刻方法？ 6

如何找出矩阵的多少行满足相当复杂的标准（在 R 中）？ 5

熊猫：用nan替换所有列中的异常值 5

有没有办法用Python进行并行分析？ 5

什么是pm.Normal.dist.logp？ 3

投票加权算法 2

如何从 SciPy 中的 scipy.stats.distribution 对象获取发行版名称？ 1

如何按值对字典进行排序？ 3424

做一个"git export"(比如"svn export")？ 2312

如何从Python字典中删除密钥？ 1539

如何将堆栈跟踪转换为字符串？ 1435

将零填充到字符串的最好方法 1309

在Python中检查类型的规范方法是什么？ 1171

Pythonic方式创建一个长多行字符串 1160

如何将包含文件的文件夹复制到Unix/Linux中的另一个文件夹？ 1145

异步与同步执行,它到底意味着什么？ 1126

如何在同一分支上的两个不同提交之间区分相同的文件？ 1077