python 是否有返回 p 值的 Anderson-Darling 实现？

Question

我想找到最适合某些数据的分布。这通常是某种测量数据，例如力或扭矩。

理想情况下，我想运行具有多个分布的 Anderson-Darling，并选择具有最高 p 值的分布。这类似于Minitab中的“拟合优度”检验。我无法找到计算 p 值的 Anderson-Darling 的 python 实现。

我尝试过scipy， stats.anderson()但它只返回 AD 统计量和具有相应显着性水平的临界值列表，而不是 p 值本身。

我也研究过statsmodels，但似乎只支持正态分布。我需要比较几种分布（正态分布、威布尔分布、对数正态分布等）的拟合度。

python 中是否有返回 p 值并支持非正态分布的 Anderson-Darling 实现？

Answer 1

我只会根据拟合优度统计量而不是 p 值对分布进行排名。我们可以使用 Anderson-Darling、Kolmogorov-Smirnov 或类似的统计量作为距离度量来对不同分布的拟合程度进行排名。

背景：

Anderson-Darling 或 Kolmogorov-Smirnov 的 p 值取决于是否估计参数。在这两种情况下，分布都不是标准分布。

在某些情况下，我们可以对列表值进行列表或使用函数逼近。这是当未估计参数并且分布是没有形状参数的简单位置尺度族时的情况。

对于具有形状参数的分布，计算 p 值所需的检验统计量的分布取决于参数。也就是说，我们必须为每组参数计算不同的分布或表格 p 值，这是不可能的。在这些情况下获取 p 值的唯一解决方案是通过引导程序或模拟特定参数的检验统计量。

技术条件是检验统计量是否渐近关键，即检验统计量的渐近分布与具体参数无关。

对分箱数据使用卡方检验需要较少的假设，即使在估计参数时我们也可以计算它。（严格来说，只有当参数是通过 MLE 使用分箱数据估计时才成立。）

谢谢您的回答。您建议使用检验统计量，因为它是拟合度的度量。但是我注意到 _Minitab_ 特别警告不要使用此统计数据来确定最佳拟合：_“但是，当 AD 值接近时，避免直接比较不同分布的 AD 值，因为 AD 统计数据对于不同的分布分布不同。为了更好地比较不同分布的拟合，请使用附加标准，例如概率图、p 值和您的过程知识。”_ 他们提出将 p 值作为更好的拟合度量 (2认同)
Minitab 的评论对我来说没有多大意义，我不知道他们如何计算具有形状参数的分布的 p 值，除非他们使用模拟值或限制为没有形状参数的分布。AD 和 KS 以及类似的 GOF 统计数据只是假设分布和经验分布之间的距离度量。检验统计量越小，分布就越接近给定的距离度量定义中的数据。 (2认同)
使用概率图作为额外的帮助总是有用的，因为它提供了分布可能适合或不适合的额外信息。如果我们在未估计参数的情况下使用 p 值，那么在估计参数的情况下它们将不正确。 (2认同)