小编lpc*_*rro的帖子

偏移量不适用于二项式 GLM

我正在尝试使用glm( family='binomial').

这是模型:

model<-glm(f_ocur~altitud+UTM_X+UTM_Y+j_sin+j_cos+temp_res+pp, 
           offset=(log(1/off)), data=mydata, family='binomial')
Run Code Online (Sandbox Code Playgroud)

mydata有 76820 个观察值。响应变量 (f_ocur) 为 0-1。
此数据是更大数据集的样本,因此设置偏移量的想法是考虑到此处使用的数据代表要分析的真实数据的样本。

由于某种原因,偏移量不起作用。当我运行这个模型时,我得到了一个结果,但是当我运行相同的模型但没有偏移时,我得到的结果与以前的模型完全相同。我期待不同的结果,但没有区别。

难道我做错了什么?偏移量应该与线性预测器一起使用吗?像这样:

model <- glm(f_ocur~altitud+UTM_X+UTM_Y+j_sin+j_cos+temp_res+pp+offset(log(1/off)), 
             data=mydata, family='binomial')
Run Code Online (Sandbox Code Playgroud)

模型准备好后,我想将它与新数据一起使用。新数据将是验证此模型的数据,此数据具有相同的列。我的想法是使用:

validate <- predict(model, newdata=data2, type='response')
Run Code Online (Sandbox Code Playgroud)

我的问题来了,预测函数是否考虑了用于创建模型的偏移量?如果没有,我应该怎么做才能获得新数据的正确概率?

r glm

5
推荐指数
1
解决办法
5684
查看次数

删除行ff包

一段时间以来我一直在使用ff包来处理大数据.我使用的R对象有大约130,000,000行和14列.其中两个列,温度和降水值缺少值"NA",因此我需要删除这些行以继续我的工作.我一直试图像在普通的R对象中那样做:

data<-data[!is.na(data$temp),]
Run Code Online (Sandbox Code Playgroud)

但我一直收到一个错误:

Error: vmode(index) == "integer" is not TRUE
Run Code Online (Sandbox Code Playgroud)

有没有人能够删除ffdf对象中的行?我很感激任何帮助.

r ff ffbase

5
推荐指数
1
解决办法
1137
查看次数

标签 统计

r ×2

ff ×1

ffbase ×1

glm ×1