我听说人们在创建先验模型后想要计算一些效果时谈论“残差建模” 。例如,如果他们知道两个变量,var_1并且var_2是相关的,我们首先建立一个模型,var_1然后对var_2之后的影响进行建模。我的问题是我在实践中从未见过这样做过。
我对以下内容感兴趣:
glm,我如何计算link function使用的?glm与var_2作为解释变量?我认为这与1有关。我的尝试:
dt <- data.table(mtcars) # I have a hypothesis that `mpg` is a function of both `cyl` and `wt`
dt[, cyl := as.factor(cyl)]
model <- stats::glm(mpg ~ cyl, family=Gamma(link="log"), data=dt) # I want to model `cyl` first
dt[, pred := stats::predict(model, type="response", newdata=dt)]
dt[, res := mpg - pred]
# will this approach work?
model2_1 <- stats::glm(mpg ~ wt + offset(pred), family=Gamma(link="log"), data=dt)
dt[, pred21 := stats::predict(model2_1, type="response", newdata=dt) ]
# or will this approach work?
model2_2 <- stats::glm(res ~ wt, family=gaussian(), data=dt)
dt[, pred22 := stats::predict(model2_2, type="response", newdata=dt) ]
Run Code Online (Sandbox Code Playgroud)
我的第一个建议方法存在收敛问题,但这就是我愚蠢的大脑会如何解决这个问题。谢谢你的帮助!
从某种意义上说,ANCOVA 是“对残差进行建模”。ANCOVA 的模型为y_i = grand_mean +treatment_i + b * (covariate - covariate_mean_i) +每个治疗i的误差。术语(协变量 - covariate_mean_i)可以看作是协变量为 DV、治疗为 IV 的模型的残差。
以下回归相当于此 ANCOVA:
lm(y ~ treatment * scale(covariate, scale = FALSE))
Run Code Online (Sandbox Code Playgroud)
应用于数据时将如下所示:
lm(mpg ~ factor(cyl) * scale(wt, scale = FALSE), data = mtcars)
Run Code Online (Sandbox Code Playgroud)
并且可以变成glm与您在示例中使用的类似的:
glm(mpg ~ factor(cyl) * scale(wt, scale = FALSE),
family=Gamma(link="log"),
data = mtcars)
Run Code Online (Sandbox Code Playgroud)