Python中拟合检验的卡方优度：p值太低，但拟合函数正确

Question

Python中拟合检验的卡方优度：p值太低，但拟合函数正确

Cha*_* M. 4 python scipy chi-squared p-value goodness-of-fit

尽管搜索了两天的相关问题，但我尚未真正找到该问题的答案...

在下面的代码中，我生成了n个正态分布的随机变量，然后将其表示为直方图：

import numpy as np
import matplotlib.pyplot as plt

n = 10000                        # number of generated random variables 
x = np.random.normal(0,1,n)      # generate n random variables

# plot this in a non-normalized histogram:
plt.hist(x, bins='auto', normed=False)    

# get the arrays containing the bin counts and the bin edges:
histo, bin_edges = np.histogram(x, bins='auto', normed=False)
number_of_bins = len(bin_edges)-1

Run Code Online (Sandbox Code Playgroud)

之后，找到曲线拟合函数及其参数。它通常使用参数a1和b1进行分布，并使用scale_factor进行缩放，以满足样本未标准化的事实。它确实非常适合直方图：

import scipy as sp

a1, b1 = sp.stats.norm.fit(x)

scaling_factor = n*(x.max()-x.min())/number_of_bins

plt.plot(x_achse,scaling_factor*sp.stats.norm.pdf(x_achse,a1,b1),'b')

Run Code Online (Sandbox Code Playgroud)

这是带有拟合功能的红色直方图。

在那之后，我想使用卡方检验来测试此函数对直方图的拟合程度。该测试使用这些点的观测值和预期值。为了计算期望值，我首先计算每个bin中间的位置，此信息包含在数组x_middle中。然后，我在每个bin的中间点计算拟合函数的值，从而得到了Expected_value数组：

observed_values = histo

bin_width = bin_edges[1] - bin_edges[0]

# array containing the middle point of each bin:
x_middle = np.linspace(  bin_edges[0] + 0.5*bin_width,    
           bin_edges[0] + (0.5 + number_of_bins)*bin_width,
           num = number_of_bins) 

expected_values = scaling_factor*sp.stats.norm.pdf(x_middle,a1,b1)

Run Code Online (Sandbox Code Playgroud)

将其插入Scipy的卡方函数中，我得到大约e-5到e-15数量级的p值，这告诉我拟合函数未描述直方图：

print(sp.stats.chisquare(observed_values,expected_values,ddof=2))

Run Code Online (Sandbox Code Playgroud)

但是，事实并非如此，该函数非常适合直方图！

有人知道我在哪里犯错了吗？

非常感谢！！查尔斯

ps：我将自由度增量数设置为2，因为2个参数a1和b1是根据样本估算的。我尝试使用其他ddof，但结果仍然很差！

Answer 1

War*_*ser 5

您对数组端点的计算x_middle偏离了一位；它应该是：

x_middle = np.linspace(bin_edges[0] + 0.5*bin_width,    
                       bin_edges[0] + (0.5 + number_of_bins - 1)*bin_width,
                       num=number_of_bins)

Run Code Online (Sandbox Code Playgroud)

请注意的- 1第二个参数中的额外内容linspace()。

一个更简洁的版本是

x_middle = 0.5*(bin_edges[1:] + bin_edges[:-1])

Run Code Online (Sandbox Code Playgroud)

一种不同的（并且可能更准确的）计算方法expected_values是使用CDF的差异，而不是在每个间隔的中间使用PDF来近似这些差异：

In [75]: from scipy import stats

In [76]: cdf = stats.norm.cdf(bin_edges, a1, b1)

In [77]: expected_values = n * np.diff(cdf)

Run Code Online (Sandbox Code Playgroud)

通过该计算，我从卡方检验中得到以下结果：

In [85]: stats.chisquare(observed_values, expected_values, ddof=2)
Out[85]: Power_divergenceResult(statistic=61.168393496775181, pvalue=0.36292223875686402)

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，10 月前
查看次数：	1783 次
最近记录：	8 年，10 月前