大熊猫显示错误的百分位数吗?

Ale*_*lex 5 python statistics pandas

我在这里使用这个 WNBA 数据集。我正在分析Height变量,下表显示了记录的每个高度值的频率、累积百分比和累积频率:

图片

从表中我可以很容易地得出结论,第一个四分位数(第 25 个百分位数)不能大于 175。

但是,当我使用 时Series.describe(),我被告知第 25 个百分位数是 176.5。为什么呢?

wnba.Height.describe()
count    143.000000
mean     184.566434
std        8.685068
min      165.000000
25%      176.500000
50%      185.000000
75%      191.000000
max      206.000000
Name: Height, dtype: float64
Run Code Online (Sandbox Code Playgroud)

Gau*_*eja 5

有多种方法可以估计分位数。
175.0 与 176.5 与两种不同的方法有关:

  1. 包括 Q1(这给出了 176.5)和
  2. 不包括 Q1(给出 175.0)。

估计不同如下

#1
h = (N ? 1)*p + 1 #p being 0.25 in your case
Est_Quantile =  x?h? + (h ? ?h?)*(x?h? + 1 ? x?h?)

#2
h = (N + 1)*p   
x?h? + (h ? ?h?)*(x?h? + 1 ? x?h?) 
Run Code Online (Sandbox Code Playgroud)