使用 R 包 rms 中的限制三次样条报告的系数

use*_*814 5 regression r

我试图理解rmsR 中包的一些输出,其中我在分位数回归中使用受限三次样条。我在理解输出时遇到的问题可能更多地与受限三次样条有关,而不是与我在分位数回归中使用它们的事实有关。我拟合一个k = 3 节的受限三次样条函数,如下所示:

fitted.model <- Rq(y ~ rcs(x, 3), x=TRUE, y=TRUE, tau=0.50, data=d)
Run Code Online (Sandbox Code Playgroud)

我很困惑的是

coef(fitted.model)

显示:

  Intercept        x       x' 

39.67901296  0.31760226  0.01875437 
Run Code Online (Sandbox Code Playgroud)

然而

Function(fitted.model)

显示:

function(x = 56.15) {39.679013+0.31760226* x+1.2554621e-05*pmax(x-38.45,0)^3-2.3161627e-05*pmax(x-56.15,0)^3+1.0607006e-05*pmax(x-77.1,0)^3 }
Run Code Online (Sandbox Code Playgroud)

给定RMS书中的公式2.24和2.25,我预计所获得的系数β 0、β 1和β 2(即β k-1coef(fitted.model) )将是用 所示的前三个(即k-1)系数Formula(fitted.model)。截距 (β 0 ) 和 X 的系数 (β 1 ) 显然相同,但公式中显示的 β 2与 中的第二个系数不同coef(fitted.model)。我误解了什么?

use*_*814 5

由于标准化,报告的系数Function彼此不同。coef在我一直在读的《回归建模策略》一书中,我找不到任何关于标准化必要性(或其优点和缺点)的描述。rcspline.eval然而,规范化在Frank HarrellHmisc包中调用的函数的文档中进行了简要描述,其中norm参数解释如下:

norm: 0 使用 Devlin 和 Weeks (1986) 最初给出的术语,1 通过最后两个结之间的间距的立方来标准化非线性项,2 通过第一个结和 Weeks 之间的间距的平方来标准化最后一个结(默认)。norm=2 的优点是使所有非线性项都在 x 尺度上。

因此,在我的问题中使用的示例中,两个系数1.2554621×10 -50.01875437通过乘法因子(77.1-38.45) 2 = 38.65 2 = 1493.82相关,即第一个和示例中的最后一个结。

归一化的最终效果是通过归一化因子更改构造样条变量的回归 β 权重,但不更改截距或未更改的 x 变量。正如 Harrell 所解释的,它使权重(系数)在 x 的尺度上更容易解释。