用 Pandas 识别统计异常值：groupby 和单独的列

Question

用 Pandas 识别统计异常值：groupby 和单独的列

Tho*_*mas 3 python pandas stdev pandas-groupby

我试图了解如何识别我将发送到电子表格的统计异常值。我需要按索引对行进行分组，然后找到特定列的 stdev，任何超出 stdev 的内容都将用于填充电子表格。

df = pandas.DataFrame({'Sex': ['M','M','M','F','F','F','F'], 'Age': [33,42,19,64,12,30,32], 'Height': ['163','167','184','164','162','158','160'],})

Run Code Online (Sandbox Code Playgroud)

使用这样的数据集，我想按性别分组，然后找到超过年龄或身高标准差的条目。我见过的大多数例子都是针对整个数据集的 stdev，而不是按列细分。将有额外的列，例如 state，所以我不需要每列的 stdev，只需要集合中的特定列。

寻找输出只包含在任一列中被标识为统计异常值的行的数据。例如：

0  M  64  164
1  M  19  184

Run Code Online (Sandbox Code Playgroud)

假设64岁超过男性身高标准，身高184厘米超过男性身高标准

Answer 1

Ale*_*der 5

首先，将您的高度从字符串转换为值。

df['Height'] = df['Height'].astype(float)

Run Code Online (Sandbox Code Playgroud)

然后，您需要分组Sex使用transform以创建布尔指标，标记是否有任何一个Age或Height组内的统计异常值。

stds = 1.0  # Number of standard deviation that defines 'outlier'.
z = df[['Sex', 'Age', 'Height']].groupby('Sex').transform(
    lambda group: (group - group.mean()).div(group.std()))
outliers = z.abs() > stds
>>> outliers
     Age Height
0  False  False
1  False  False
2   True   True
3   True   True
4   True  False
5  False   True
6  False  False

Run Code Online (Sandbox Code Playgroud)

现在过滤包含任何异常值的行：

>>> df[outliers.any(axis=1)]
   Age  Height Sex
2   19     184   M
3   64     164   F
4   12     162   F
5   30     158   F

Run Code Online (Sandbox Code Playgroud)

如果您只关心分布的上行（即值 > 均值 + 2 SD），则只需删除.abs()，即lambda group: (group - group.mean()).div(group.std()).abs() > stds

归档时间：	8 年，4 月前
查看次数：	4796 次
最近记录：	8 年，4 月前