在R中手动建立逻辑回归模型用于预测

ElC*_*apo 6 regression model r building

我试图在数据集上测试逻辑回归模型(例如3个预测变量的系数,X1,X2,X3).我知道如何在创建模型对象后使用例如测试模型,例如,

mymodel <- glm( Outcome ~  X1 + X2 + X3 , family = binomial,data=trainDat)
Run Code Online (Sandbox Code Playgroud)

然后测试数据

prob <- predict(mymodel,type="response",newdata=test)
Run Code Online (Sandbox Code Playgroud)

但我现在想要使用系数和截距创建一个逻辑模型,然后在数据上测试这个模型.

基本上我不清楚如何在不运行glm的情况下创建"mymodel".

问题的上下文:我使用偏移运行逻辑回归,例如:

mymodel <- glm(Outcome ~ offset(C1 * X1) + offset(C2 * X2) + X3, 
               family = binomial, data = trainDat)
Run Code Online (Sandbox Code Playgroud)

因此,mymodel对象生成仅具有截距(I)和C3系数(对于特征X3)的模型.
我现在需要在测试数据集上测试完整模型(即I + C1*X1 + C2*X2 + C3*X3),但我不知道如何获得完整模型,因为mymodel的输出只有拦截和C3.所以我认为我更普遍的问题是:"你如何手动构建一个logisitic回归模型对象?"

感谢您的耐心等待.

MrF*_*ick 13

我找不到一个简单的功能来做到这一点.predict函数中有一些代码依赖于拟合模型(如确定模型的等级).但是,我们可以创建一个函数来创建一个可以与predict一起使用的假glm对象.这是我第一次尝试这样的功能

makeglm <- function(formula, family, data=NULL, ...) {
    dots <- list(...)
    out<-list()
    tt <- terms(formula, data=data)
    if(!is.null(data)) {
        mf <- model.frame(tt, data)
        vn <- sapply(attr(tt, "variables")[-1], deparse)

        if((yvar <- attr(tt, "response"))>0)
            vn <- vn[-yvar]
            xlvl <- lapply(data[vn], function(x) if (is.factor(x))
           levels(x)
        else if (is.character(x))
           levels(as.factor(x))
        else
            NULL)
        attr(out, "xlevels") <- xlvl[!vapply(xlvl,is.null,NA)]
        attr(tt, "dataClasses") <- sapply(data[vn], stats:::.MFclass)
    }
    out$terms <- tt
    coef <- numeric(0)
    stopifnot(length(dots)>1 & !is.null(names(dots)))
    for(i in seq_along(dots)) {
        if((n<-names(dots)[i]) != "") {
            v <- dots[[i]]
            if(!is.null(names(v))) {
                coef[paste0(n, names(v))] <- v
            } else {
                stopifnot(length(v)==1)
                coef[n] <- v
            }
        } else {
            coef["(Intercept)"] <- dots[[i]]
        }   
    }
    out$coefficients <- coef
    out$rank <- length(coef)
    out$qr <- list(pivot=seq_len(out$rank))
    out$family <- if (class(family) == "family") {
        family
    } else if (class(family) == "function") {
        family()
    } else {
        stop(paste("invalid family class:", class(family)))
    }
    out$deviance <- 1
    out$null.deviance <- 1
    out$aic <- 1
    class(out) <- c("glm","lm")
    out
}
Run Code Online (Sandbox Code Playgroud)

因此,此函数创建一个对象,并传递在此类对象上找到predictprint期望找到的所有值.现在我们可以测试一下.首先,这是一些测试数据

set.seed(15)
dd <- data.frame(
    X1=runif(50),
    X2=factor(sample(letters[1:4], 50, replace=T)),
    X3=rpois(50, 5),
    Outcome = sample(0:1, 50, replace=T)
)
Run Code Online (Sandbox Code Playgroud)

我们可以使用标准二项式模型

mymodel<-glm(Outcome~X1+X2+X3, data=dd, family=binomial)
Run Code Online (Sandbox Code Playgroud)

这使

Call:  glm(formula = Outcome ~ X1 + X2 + X3, family = binomial, data = dd)

Coefficients:
(Intercept)           X1          X2b          X2c          X2d           X3  
    -0.4411       0.8853       1.8384       0.9455       1.5059      -0.1818  

Degrees of Freedom: 49 Total (i.e. Null);  44 Residual
Null Deviance:      68.03 
Residual Deviance: 62.67    AIC: 74.67
Run Code Online (Sandbox Code Playgroud)

现在让我们说我们想尝试一下我们在同一数据的出版物中读到的模型.这是我们如何使用该makeglm功能

newmodel <- makeglm(Outcome~X1+X2+X3, binomial, data=dd, 
    -.5, X1=1, X2=c(b=1.5, c=1, d=1.5), X3=-.15)
Run Code Online (Sandbox Code Playgroud)

第一个参数是模型的公式.这就像运行时一样定义了响应和协变量glm.接下来,您可以像指定一样指定系列glm().并且您需要传递一个数据框,以便R可以为所涉及的每个变量嗅探正确的数据类型.这还将使用data.frame识别所有因子变量及其级别.因此,这可以是新数据,其编码就像拟合的data.frame或它可以是原始数据.

现在我们开始指定要在我们的模型中使用的系数.系数将使用参数名称填充.未命名的参数将用作拦截.如果您有一个因子,则需要通过命名参数为所有级别提供系数.在这里,我刚刚决定将拟合的估计值归结为"漂亮"的数字.

现在我可以使用我们newmodel的预测.

predict(mymodel, type="response")
#         1         2         3         4         5
# 0.4866398 0.3553439 0.6564668 0.7819917 0.3008108

predict(newmodel, newdata=dd, type="response")

#         1         2         3         4         5
# 0.5503572 0.4121811 0.7143200 0.7942776 0.3245525
Run Code Online (Sandbox Code Playgroud)

在这里,我使用具有指定系数的旧数据调用原始模型和新模型上的预测.我们可以看到概率的估计已经发生了一些变化.

现在我还没有彻底测试过这个功能,所以使用风险自负.我没有尽可能多地进行错误检查.也许别人确实知道更好的方法.