使用lm()的线性回归 - 结果令人惊讶

Question

使用lm()的线性回归 - 结果令人惊讶

NOT*_*OTM 8 r orthogonal linear-regression least-squares lm

我使用函数对我拥有的数据进行了线性回归lm.一切正常(没有错误信息),但我对结果感到惊讶:我的印象是R"错过"一组积分,即截距和斜率不是最合适的.例如,我指的是坐标x = 15-25,y = 0-20处的点群.

我的问题:

是否有一个函数来比较拟合与"预期"系数和"lm计算"系数？
编码时我犯了一个愚蠢的错误,导致lm这样做吗？

以下是一些答案:x和y的附加信息

x和y都是疾病症状的视觉估计.两者都存在同样的不确定性.

数据和代码在这里:

x1=c(24.0,23.9,23.6,21.6,21.0,20.8,22.4,22.6,
     21.6,21.2,19.0,19.4,21.1,21.5,21.5,20.1,20.1,
     20.1,17.2,18.6,21.5,18.2,23.2,20.4,19.2,22.4,
     18.8,17.9,19.1,17.9,19.6,18.1,17.6,17.4,17.5,
     17.5,25.2,24.4,25.6,24.3,24.6,24.3,29.4,29.4,
     29.1,28.5,27.2,27.9,31.5,31.5,31.5,27.8,31.2,
     27.4,28.8,27.9,27.6,26.9,28.0,28.0,33.0,32.0,
     34.2,34.0,32.6,30.8)

y1=c(100.0,95.5,93.5,100.0,98.5,99.5,34.8,
     45.8,47.5,17.4,42.6,63.0,6.9,12.1,30.5,
     10.5,14.3,41.1, 2.2,20.0,9.8,3.5,0.5,3.5,5.7,
     3.1,19.2,6.4, 1.2, 4.5, 5.7, 3.1,19.2, 6.4,
     1.2,4.5,81.5,70.5,91.5,75.0,59.5,73.3,66.5,
     47.0,60.5,47.5,33.0,62.5,87.0,86.0,77.0,
     86.0,83.0,78.5,83.0,83.5,73.0,69.5,82.5,78.5,
     84.0,93.5,83.5,96.5,96.0,97.5)   



## x11()
plot(x1,y1,xlim=c(0,35),ylim=c(0,100))

# linear regression
reg_lin=lm(y1 ~ x1)
abline(reg_lin,lty="solid", col="royalblue")
text(12.5,25,labels="R result",col="royalblue", cex=0.85)
text(12.5,20,labels=bquote(y== .(5.26)*x - .(76)),col="royalblue", cex=0.85)

# result I would have imagined
abline(a=-150,b=8,lty="dashed", col="red")
text(27.5,25,labels="What I think is better",col="red", cex=0.85)
text(27.5,20,labels=bquote(y== .(8)*x - .(150)),col="red", cex=0.85)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Mic*_*ico 8

试试这个:

reg_lin_int <- reg_lin$coefficients[1]
reg_lin_slp <- reg_lin$coefficients[2]

sum((y1 - (reg_lin_int + reg_lin_slp*x1)) ^ 2)
# [1] 39486.33
sum((y1 - (-150 + 8 * x1)) ^ 2)
# [1] 55583.18

Run Code Online (Sandbox Code Playgroud)

lm拟合线下的残差平方和较低.这是预期的,因为reg_lin_int并且reg_lin_slp保证产生最小的总平方误差.

直觉上,我们知道平方损失函数下的估计量对异常值很敏感.它在底部"失踪"了,因为它更接近左上方的距离更远的距离 - 平方距离使这些点更加重要.

事实上,如果我们使用最小绝对偏差回归(即指定绝对损失函数而不是方形),结果更接近您的猜测:

library(quantreg)
lad_reg <- rq(y1 ~ x1)

Run Code Online (Sandbox Code Playgroud)

(临提示:使用lwd,让您的图表得多更具可读性)

正如@nongkrong和@MikeWilliamson所提到的,Total Least Squares更接近您的想法.以下是样本中TLS的结果:

v <- prcomp(cbind(x1, y1))$rotation
bbeta <- v[-ncol(v), ncol(v)] / v[1, 1]
inter <- mean(y1) - bbeta * mean(x1)

Run Code Online (Sandbox Code Playgroud)

Answer 2

Rol*_*and 6

你已经得到了一个很好的答案,但也许这也有帮助:

如您所知,OLS最小化y方向上的平方误差之和.这意味着你的x值的不确定性可以忽略不计,这种情况经常发生.但可能不是您的数据的情况.如果我们假设x和y中的不确定性相等并且进行Deming回归,那么我们得到的拟合更符合您的预期.

library(MethComp)
dem_reg <- Deming(x1, y1)
abline(dem_reg[1:2], col = "green")

Run Code Online (Sandbox Code Playgroud)

您不提供有关数据的详细信息.因此,这可能有用或不有用.

归档时间：	10 年，2 月前
查看次数：	1118 次
最近记录：	9 年，3 月前