相同的回归,不同的统计数据(R诉SAS)?

Dew*_*wey 4 r sas

我在SAS和R中运行了相同的概率回归,而我的系数估计值(基本上)是等效的,报告的测试统计数据是不同的.具体而言,SAS将测试统计报告为t统计,而R将测试统计报告为z统计.

我检查了我的计量经济学文本,发现(很少详细说明)它以t统计数据报告了probit结果.

哪个统计数据合适?为什么R与SAS不同?

这是我的SAS代码:

proc qlim data=DavesData;
 model y = x1 x2 x3/ discrete(d=probit);
run;
quit;
Run Code Online (Sandbox Code Playgroud)

这是我的R代码:

> model.1 <- glm(y ~ x1 + x2 + x3, family=binomial(link="probit"))
> summary(model.1)
Run Code Online (Sandbox Code Playgroud)

Jor*_*eys 6

只是回答一下 - 它严重偏离主题,问题应该被关闭 - 但是t统计量和z统计量都没有意义.它们都是相关的,因为Z只是标准的正态分布,T是一个适应的"接近正常"的分布,考虑到你的样本仅限于n个案例.

现在,z和t统计量都为零假设提供了相应系数等于零的重要性.用于该测试的系数的标准误差基于残差.使用链接函数,您实际上可以转换您的响应,使残差再次变为正常,而实际上残差表示观察到的和估计的比例之间的差异.由于这种变换,T统计量的自由度的计算不再有用,因此R假设检验统计量的标准正态分布.

两种结果完全相同,R只会给出稍微更尖锐的p值.这是一个有争议的问题,但如果你看一下比例差异测试,他们也总是使用标准的正态近似(Z-test)来完成.

这让我回到了这两个值都没有任何意义的观点.如果你想知道一个变量是否具有实际上说某事的p值的显着贡献,你可以使用像似然比测试(LR),分数测试或Wald测试这样的卡方检验.R只给你标准似然比,SAS也给你另外两个.但是所有这三个测试基本上是等价的,如果它们严重不同,那么再次查看数据是时候了.

例如在R:

anova(model.1,test="Chisq")
Run Code Online (Sandbox Code Playgroud)

对于SAS:请参阅此处的示例以使用对比,获得LR,分数或Wald测试