为什么从glmnet模型中获取回归系数的统计汇总信息是不可取的?

Ton*_*ZZZ 17 statistics regression r glm glmnet

我有一个带二元结果的回归模型.我用glmnet拟合了模型并得到了选定的变量及其系数.

由于glmnet不计算变量重要性,我想将精确输出(选定变量及其系数)提供给glm以获取信息(标准错误等).

我搜索了r文件,似乎我可以在glm中使用"method"选项来指定用户定义的函数.但我没有这样做,有人可以帮助我吗?

fra*_*ceo 34

"要求回归系数或其他估计量的标准误差是一个非常自然的问题.原则上,这样的标准误差很容易计算,例如使用自举.

不过,这个软件包故意不提供它们.其原因在于标准误差对于强烈偏差估计而言并不是非常有意义,例如由惩罚估计方法引起的.惩罚估计是通过引入实质偏差来减少估计量方差的过程.因此,每个估计量的偏差是其均方误差的主要组成部分,而其方差可能只贡献一小部分.

不幸的是,在惩罚性回归的大多数应用中,不可能获得足够精确的偏差估计.任何基于bootstrap的计算都只能评估估计的方差.只有在可靠的无偏估计可用时才能获得可靠的偏差估计,而在使用惩罚估计的情况下通常不是这种情况.

因此,报告惩罚估计的标准误差只能说明故事的一部分.它可能给人一种极其精确的错误印象,完全忽略了偏差造成的不准确性.做出基于对估计方差的评估的置信度陈述肯定是错误的,例如基于引导程序的置信区间.

Jelle Goeman,博士 莱顿大学,R的惩罚包的作者.