消除给定百分位数的所有数据

Question

消除给定百分位数的所有数据

Roy*_*ith 32 python filtering percentile pandas

我有一个DataFrame叫做data列的大熊猫ms.我想消除data.ms高于95%百分位数的所有行.现在,我这样做:

limit = data.ms.describe(90)['95%']
valid_data = data[data['ms'] < limit]

Run Code Online (Sandbox Code Playgroud)

哪个有效,但我想把它推广到任何百分位数.最好的方法是什么？

Answer 1

Phi*_*oud 67

使用Series.quantile()方法:

In [48]: cols = list('abc')

In [49]: df = DataFrame(randn(10, len(cols)), columns=cols)

In [50]: df.a.quantile(0.95)
Out[50]: 1.5776961953820687

Run Code Online (Sandbox Code Playgroud)

过滤掉的行df,其中df.a大于或等于第95百分位的更多信息:

In [72]: df[df.a < df.a.quantile(.95)]
Out[72]:
       a      b      c
0 -1.044 -0.247 -1.149
2  0.395  0.591  0.764
3 -0.564 -2.059  0.232
4 -0.707 -0.736 -1.345
5  0.978 -0.099  0.521
6 -0.974  0.272 -0.649
7  1.228  0.619 -0.849
8 -0.170  0.458 -0.515
9  1.465  1.019  0.966

Run Code Online (Sandbox Code Playgroud)

Answer 2

2di*_*com 25

对于这类事情,numpy比熊猫快得多:

numpy.percentile(df.a,95) # attention : the percentile is given in percent (5 = 5%)

Run Code Online (Sandbox Code Playgroud)

相当于但比以下快3倍:

df.a.quantile(.95)  # as you already noticed here it is ".95" not "95"

Run Code Online (Sandbox Code Playgroud)

所以对于你的代码,它给出:

df[df.a < np.percentile(df.a,95)]

Run Code Online (Sandbox Code Playgroud)

如果您能负担得起列提取成本，则可以确认 numpy 的实现速度更快 (3认同)

Answer 3

hel*_*err 7

您可以使用查询来获得更简洁的选项：

df.query('ms < ms.quantile(.95)')

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，5 月前
查看次数：	33388 次
最近记录：	7 年，4 月前