如何解释scipy.stats.probplot结果?

00_*_*_00 5 python statistics plot numpy matplotlib

我想使用scipy.stats.probplot对进行一些高斯测试mydata

from scipy import stats
_,fit=stats.probplot(mydata, dist=stats.norm,plot=ax)
goodness_fit="%.2f" %fit[2]
Run Code Online (Sandbox Code Playgroud)

该文件说:

生成样本数据相对于指定理论分布(默认为正态分布)的分位数的概率图。probplot可以选择计算数据的最佳拟合线,并使用Matplotlib或给定的绘图函数对结果进行绘图。probplot生成概率图,请勿将其与QQ或PP图混淆。Statsmodels具有此类更广泛的功能,请参阅statsmodels.api.ProbPlot。

但是如果用谷歌搜索概率图,它是PP图的通用名称,而文档则说不要混淆这两件事。

现在我很困惑,这个函数在做什么?

小智 10

几个小时以来,我一直在寻找这个问题的答案,可以在Scipy / Statsmodel代码注释中找到它。

Scipy中,请访问https://github.com/scipy/scipy/blob/abdab61d65dda1591f9d742230f0d1459fd7c0fa/scipy/stats/morestats.py#L523进行评论:

probplot生成概率图,请勿将其与QQ或PP图混淆。Statsmodels具有这种类型的更广泛的功能,请参阅statsmodels.api.ProbPlot

因此,现在,让我们看一下Statsmodels,其中https://github.com/statsmodels/statsmodels/blob/66fc298c51dc323ce8ab8564b07b1b3797108dad/statsmodels/graphics/gofplots.py#L58上的注释如下:

ppplot:概率-概率图比较样本和理论概率(百分位数)。

qqplot:分位数图比较样本和理论分位数

probplot:概率图与QQ图相同,但是概率以理论分布的比例(x轴)显示,y轴包含未缩放的样本数据分位数。

因此,在这些模块中,QQ图和概率图之间的差异与比例有关。


Ash*_*and 7

事件发生的理论概率是基于对情况的了解的“预期”概率。它是有利结果的数量与可能结果的数量之比。

当您在实验期间从观察中收集数据时,您将计算经验(或实验)概率。

例子:你扔了一枚硬币,你得到了一个正面。

实验概率(head)=1

理论概率(人头)=0.5

为简单起见,请参阅下图,该图显示了获得特定账单金额的概率。显示了 p 和 q 图。 在此处输入图片说明

ppplot : Probability-Probability plot 比较样本和理论概率(百分位数)。

qqplot : Quantile-Quantile plot 比较样本和理论分位数

probplot : Probability plot 与 QQ 图相同,但概率以理论分布(x 轴)的比例显示,y 轴包含样本数据的未缩放分位数。

ppplot、qqplot 和 probplot 之间的差异与尺度有关。两者都在 x 和 y 轴上显示样本和理论值。

在此处输入图片说明

百分位图 百分位图是最简单的图。您只需根据它们的绘图位置绘制数据。绘图位置以线性比例显示,但数据可以适当缩放。

分位数图 分位数图类似于概率图。主要区别在于绘制位置根据概率分布转换为分位数或 ZZ 分数。

默认分布是标准正态分布。您会注意到 QQ 图上的数据形状比 PP 图更直。这是由于将绘图位置转换为分布的分位数时发生的转换。

最佳拟合线

向概率图添加最佳拟合线可以洞察数据集是否可以用分布表征

在此处输入图片说明

在统计学和概率分位数中,分位数是将概率分布的范围划分为具有相等概率的连续区间,或以相同方式划分样本中的观察值的切点。正态分布的概率密度,显示四分位数。红色曲线下方的区域在区间 (??,Q1)、(Q1,Q2)、(Q2,Q3) 和 (Q3,+?) 中是相同的。

在统计学中,Q-Q(分位数-分位数)图是一种概率图,它是一种通过将两个概率分布相互绘制出来来比较两个概率分布的图形方法。

如果被比较的两个分布相似,则 Q-Q 图中的点将大致位于 y = x 线上。如果分布线性相关,则 Q-Q 图中的点将大致位于一条线上,但不一定位于 y = x 线上。

AQ-Q 图用于比较分布的形状,提供有关位置、尺度和偏度等属性在两个分布中如何相似或不同的图形视图。

AP–P 图绘制了两个累积分布函数 (cdfs) 的相对关系:它是一个概率图,用于评估两个数据集的一致程度,它绘制了两个累积分布函数的相对关系。PP 图广泛用于评估分布的偏度。