pandas:找到给定列的百分位统计数据

Eda*_*ame 34 python statistics python-2.7 pandas

我有一个pandas数据框my_df,在那里我可以找到给定列的mean(),median(),mode():

my_df['field_A'].mean()
my_df['field_A'].median()
my_df['field_A'].mode()
Run Code Online (Sandbox Code Playgroud)

我想知道是否有可能找到更详细的统计数据,如90%?谢谢!

sta*_*010 42

您可以使用pandas.DataFrame.quantile()函数,如下所示.

import pandas as pd
import random

A = [ random.randint(0,100) for i in range(10) ]
B = [ random.randint(0,100) for i in range(10) ]

df = pd.DataFrame({ 'field_A': A, 'field_B': B })
df
#    field_A  field_B
# 0       90       72
# 1       63       84
# 2       11       74
# 3       61       66
# 4       78       80
# 5       67       75
# 6       89       47
# 7       12       22
# 8       43        5
# 9       30       64

df.field_A.mean()   # Same as df['field_A'].mean()
# 54.399999999999999

df.field_A.median() 
# 62.0

# You can call `quantile(i)` to get the i'th quantile,
# where `i` should be a fractional number.

df.field_A.quantile(0.1) # 10th percentile
# 11.9

df.field_A.quantile(0.5) # same as median
# 62.0

df.field_A.quantile(0.9) # 90th percentile
# 89.10000000000001
Run Code Online (Sandbox Code Playgroud)

  • 输出并不总是与某些单元格值相同。它做任何插值吗? (3认同)
  • @jwlon81:您是否要计算每个组内数字的分位数?如果是这样,那么尝试这样的事情:`df.groupby('Category').field_A.quantile(0.1)`。这将返回每组“类别”的第 10 个百分位数。 (3认同)
  • 是.如果你看一下'quantile()`的API,你会看到如果你想要一个落在数据中两个位置之间的分位数,它需要一个如何进行插值的参数:'线性','低','更高','中点'或'最近'.默认情况下,它执行线性插值.这些插值方法在维基百科文章"百分位数"中讨论:https://en.wikipedia.org/wiki/Percentile (2认同)
  • @stackoverflowuser2010 如何在“Groupby”中获得分位数(i)?例如,如果我在上面的 df 中添加了一个名为 'Category' 的 col,其属性为 'a'、'b' 和 'c',代码会是这样吗?我试过 df1= df['Category', 'field_A'].quantile(0.99,interpolation='higher') 但它不起作用。干杯 (2认同)

ris*_*ain 15

您甚至可以为多个列提供空值并获取多个分位数值(我使用 95 百分位进行异常值处理)

my_df[['field_A','field_B']].dropna().quantile([0.0, .5, .90, .95])
Run Code Online (Sandbox Code Playgroud)


piR*_*red 11

假设系列 s

s = pd.Series(np.arange(100))
Run Code Online (Sandbox Code Playgroud)

获取分位数 [.1, .2, .3, .4, .5, .6, .7, .8, .9]

s.quantile(np.linspace(.1, 1, 9, 0))

0.1     9.9
0.2    19.8
0.3    29.7
0.4    39.6
0.5    49.5
0.6    59.4
0.7    69.3
0.8    79.2
0.9    89.1
dtype: float64
Run Code Online (Sandbox Code Playgroud)

要么

s.quantile(np.linspace(.1, 1, 9, 0), 'lower')

0.1     9
0.2    19
0.3    29
0.4    39
0.5    49
0.6    59
0.7    69
0.8    79
0.9    89
dtype: int32
Run Code Online (Sandbox Code Playgroud)

  • 喜欢“较低”关键字 (3认同)

小智 8

一种非常简单有效的方法是在特定列上调用描述函数

df['field_A'].describe()
Run Code Online (Sandbox Code Playgroud)

这将为您提供平均值、最大值、中位数和第 75 个百分位数


mik*_*wry 8

描述会给你四分位数,如果你想要百分位数,你可以这样做

 df['YOUR_COLUMN_HERE'].describe(percentiles=[.1, .2, .3, .4, .5, .6 , .7, .8, .9, 1])
Run Code Online (Sandbox Code Playgroud)


Eda*_*ame 7

我发现下面可以工作:

my_df.dropna().quantile([0.0, .9])
Run Code Online (Sandbox Code Playgroud)