don*_*zao 10 statistics regression r data-modeling linear-regression
我们将树的直径作为预测因子,树高作为因变量.对于这种数据存在许多不同的方程式,我们尝试对其中的一些进行建模并比较结果.
但是,我们无法弄清楚如何正确地将一个方程式放入相应的R formula格式中.
该trees数据组中R,可以使用,例如,
data(trees)
df <- trees
df$h <- df$Height * 0.3048 #transform to metric system
df$dbh <- (trees$Girth * 0.3048) / pi #transform tree girth to diameter
Run Code Online (Sandbox Code Playgroud)
首先,似乎运作良好的等式的例子:

form1 <- h ~ I(dbh ^ -1) + I( dbh ^ 2)
m1 <- lm(form1, data = df)
m1
Call:
lm(formula = form1, data = df)
Coefficients:
(Intercept) I(dbh^-1) I(dbh^2)
27.1147 -5.0553 0.1124
Run Code Online (Sandbox Code Playgroud)
系数a,b并c估计,这是我们感兴趣的.
现在有问题的等式:

试着像这样适合它:
form2 <- h ~ I(dbh ^ 2) / dbh + I(dbh ^ 2) + 1.3
Run Code Online (Sandbox Code Playgroud)
给出错误:
m1 <- lm(form2, data = df)
Error in terms.formula(formula, data = data)
invalid model formula in ExtractVars
Run Code Online (Sandbox Code Playgroud)
我想这是因为/被解释为嵌套模型而不是算术运算符?
这不会出错:
form2 <- h ~ I(I(dbh ^ 2) / dbh + I(dbh ^ 2) + 1.3)
m1 <- lm(form2, data = df)
Run Code Online (Sandbox Code Playgroud)
但结果不是我们想要的结果:
m1
Call:
lm(formula = form2, data = df)
Coefficients:
(Intercept) I(I(dbh^2)/dbh + I(dbh^2) + 1.3)
19.3883 0.8727
Run Code Online (Sandbox Code Playgroud)
外部的整个项只给出一个系数I(),这似乎是逻辑.
我们如何才能将第二个方程拟合到我们的数据中?
Gre*_*gor 12
你有几个问题.(1)你的分母缺少括号form2(并且R无法知道你想a在分母中添加一个常数,或者确实放置任何参数的位置),而且更有问题:(2) )你的第二个模型不是线性的,所以lm不起作用.
修复(1)很容易:
form2 <- h ~ 1.3 + I(dbh^2) / (a + b * dbh + c * I(dbh^2))
Run Code Online (Sandbox Code Playgroud)
修正(2),虽然有很多方法可以估算非线性模型的参数,但nls(非线性最小二乘)是一个很好的起点:
m2 <- nls(form2, data = df, start = list(a = 1, b = 1, c = 1))
Run Code Online (Sandbox Code Playgroud)
您需要为参数提供起始猜测nls.我只选了1,但你应该使用更好的猜测来确定参数可能是什么.
G. *_*eck 11
假设你正在使用nlsR公式可以使用普通的R函数H(a, b, c, D),所以公式可以只是h ~ H(a, b, c, dbh)这个工作:
# use lm to get startingf values
lm1 <- lm(1/(h - 1.3) ~ I(1/dbh) + I(1/dbh^2), df)
start <- rev(setNames(coef(lm1), c("c", "b", "a")))
# run nls
H <- function(a, b, c, D) 1.3 + D^2 / (a + b * D + c * D^2)
nls1 <- nls(h ~ H(a, b, c, dbh), df, start = start)
nls1 # display result
Run Code Online (Sandbox Code Playgroud)
绘制输出图:
plot(h ~ dbh, df)
lines(fitted(nls1) ~ dbh, df)
Run Code Online (Sandbox Code Playgroud)

Ben*_*ker 10
编辑:修复,不再错误地使用偏移...
一个补充@ shujaa的答案:
你可以改变你的问题
H = 1.3 + D^2/(a+b*D+c*D^2)
Run Code Online (Sandbox Code Playgroud)
至
1/(H-1.3) = a/D^2+b/D+c
Run Code Online (Sandbox Code Playgroud)
这通常会弄乱模型的假设(即,如果H通常以恒定方差分布,那么1/(H-1.3)就不会.但是,让我们尝试一下:
data(trees)
df <- transform(trees,
h=Height * 0.3048, #transform to metric system
dbh=Girth * 0.3048 / pi #transform tree girth to diameter
)
lm(1/(h-1.3) ~ poly(I(1/dbh),2,raw=TRUE),data=df)
## Coefficients:
## (Intercept) poly(I(1/dbh), 2, raw = TRUE)1
## 0.043502 -0.006136
## poly(I(1/dbh), 2, raw = TRUE)2
## 0.010792
Run Code Online (Sandbox Code Playgroud)
这些结果通常足以获得nls合适的良好起始值.但是,您可以做得比glm使用链接功能允许某些形式的非线性的via更好.特别,
(fit2 <- glm(h-1.3 ~ poly(I(1/dbh),2,raw=TRUE),
family=gaussian(link="inverse"),data=df))
## Coefficients:
## (Intercept) poly(I(1/dbh), 2, raw = TRUE)1
## 0.041795 -0.002119
## poly(I(1/dbh), 2, raw = TRUE)2
## 0.008175
##
## Degrees of Freedom: 30 Total (i.e. Null); 28 Residual
## Null Deviance: 113.2
## Residual Deviance: 80.05 AIC: 125.4
##
Run Code Online (Sandbox Code Playgroud)
您可以看到结果与线性拟合大致相同,但并不完全相同.
pframe <- data.frame(dbh=seq(0.8,2,length=51))
Run Code Online (Sandbox Code Playgroud)
我们使用predict,但需要更正预测,以解释我们从LHS中减去一个常数的事实:
pframe$h <- predict(fit2,newdata=pframe,type="response")+1.3
p2 <- predict(fit2,newdata=pframe,se.fit=TRUE) ## predict on link scale
pframe$h_lwr <- with(p2,1/(fit+1.96*se.fit))+1.3
pframe$h_upr <- with(p2,1/(fit-1.96*se.fit))+1.3
png("dbh_tmp1.png",height=4,width=6,units="in",res=150)
par(las=1,bty="l")
plot(h~dbh,data=df)
with(pframe,lines(dbh,h,col=2))
with(pframe,polygon(c(dbh,rev(dbh)),c(h_lwr,rev(h_upr)),
border=NA,col=adjustcolor("black",alpha=0.3)))
dev.off()
Run Code Online (Sandbox Code Playgroud)

因为我们在LHS上使用了常量(这几乎,但并不完全适合使用偏移的框架- 如果我们的公式是1/H - 1.3 = a/D^2 + ...,我们只能使用偏移,即如果链接上的常量调整(逆)的规模,而不是原来的规模),这并不完全适合ggplot的geom_smooth框架
library("ggplot2")
ggplot(df,aes(dbh,h))+geom_point()+theme_bw()+
geom_line(data=pframe,colour="red")+
geom_ribbon(data=pframe,colour=NA,alpha=0.3,
aes(ymin=h_lwr,ymax=h_upr))
ggsave("dbh_tmp2.png",height=4,width=6)
Run Code Online (Sandbox Code Playgroud)
