当某个因素在测试集中出现新水平时避免失败

Question

当某个因素在测试集中出现新水平时避免失败

我有一个数据集，我按以下方式将其分为训练和测试子集：

train_ind <- sample(seq_len(nrow(dataset)), size=(2/3)*nrow(dataset))
train <- dataset[train_ind]
test <- dataset[-train_ind]

Run Code Online (Sandbox Code Playgroud)

然后，我用它来训练 glm：

glm.res <- glm(response ~ ., data=dataset, subset=train_ind, family = binomial(link=logit))

Run Code Online (Sandbox Code Playgroud)

最后，我用它来预测我的测试集：

preds <- predict(glm.res, test, type="response")

Run Code Online (Sandbox Code Playgroud)

根据示例，此操作会失败并出现错误：

model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) 中的错误：因子具有新级别

请注意，该值出现在完整数据集上，但显然不在训练集上。我想做的是让预测函数忽略这些新因素。即使它已经对因子进行了二值化，我也不明白为什么它可以假设新值（因此，不是线性模型中的变量）只是 0，这会产生正确的行为。

有没有办法做到这一点？

Answer 1

Mar*_*dri 1

我从以下数据生成过程开始（一个二元响应变量、一个数值自变量和 3 个分类自变量）：

set.seed(1)
n <- 500
y <- factor(rbinom(n, size=1, p=0.7))
x1 <- rnorm(n)
x2 <- cut(runif(n), breaks=seq(0,1,0.2))
x3 <- cut(runif(n), breaks=seq(0,1,0.25))
x4 <- cut(runif(n), breaks=seq(0,1,0.1))
df <- data.frame(y, x1, x2, x3, x4)

Run Code Online (Sandbox Code Playgroud)

在这里，我构建训练和测试集的方式是在测试集中包含一些分类协变量 (x2和)，其类别比训练集中的类别更多：x3

idx <- which(df$x2!="(0.6,0.8]" & df$x3!="(0,0.25]")
train_ind <- sample(idx, size=(2/3)*length(idx))
train <- df[train_ind,]
train$x2 <- droplevels(train$x2)
train$x3 <- droplevels(train$x3)
test <- df[-train_ind,]

table(train$x2)
(0,0.2] (0.2,0.4] (0.4,0.6]   (0.8,1] 
     55        40        53        49 

table(test$x2)
(0,0.2] (0.2,0.4] (0.4,0.6] (0.6,0.8]   (0.8,1] 
     58        48        45        90        62 

table(train$x3)
(0.25,0.5] (0.5,0.75]   (0.75,1] 
        66         61         70 

table(test$x3)
(0,0.25] (0.25,0.5] (0.5,0.75]   (0.75,1] 
     131         63         47         62

Run Code Online (Sandbox Code Playgroud)

当然，predict会产生@Setzer22 上面描述的消息错误：

glm.res <- glm(y ~ ., data=train, family = binomial(link=logit)) 
preds <- predict(glm.res, test, type="response")

Run Code Online (Sandbox Code Playgroud)

model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) 中的错误：因子 x2 具有新级别 (0.6,0.8]

test这是删除协变量中具有新级别的行的（不优雅的）方法：

dropcats <- function(k) {
   xtst <- test[,k]
   xtrn <- train[,k]
   cmp.tst.trn <- (unique(xtst) %in% unique(xtrn))
   if (is.factor(xtst) & any(!cmp.tst.trn)) {
      cat.tst <- unique(xtst)
      apply(test[,k]==matrix(rep(cat.tst[cmp.tst.trn],each=nrow(test)),
                      nrow=nrow(test)),1,any)
   } else {
      rep(TRUE,nrow(test))
   }
}   
filt <- apply(sapply(2:ncol(df),dropcats),1,all)
subset.test <- test[filt,]

Run Code Online (Sandbox Code Playgroud)

在subset.test测试集的子集中x2并且x3没有新类别：

table(subset.test[,"x2"])
  (0,0.2] (0.2,0.4] (0.4,0.6] (0.6,0.8]   (0.8,1] 
       26        25        20         0        28

table(subset.test[,"x3"])
  (0,0.25] (0.25,0.5] (0.5,0.75]   (0.75,1] 
         0         29         29         41

Run Code Online (Sandbox Code Playgroud)

现在predict效果很好：

preds <- predict(glm.res, subset(test,filt), type="response")
head(preds)

       30        39        41        49        55        56 
0.7732564 0.8361226 0.7576259 0.5589563 0.8965357 0.8058025

Run Code Online (Sandbox Code Playgroud)

希望这可以帮到你。

感谢您的回答！我觉得令人沮丧的是，在 R 中似乎没有简单的方法可以做到这一点。在我看来，这就像实现应该涵盖的基本边缘情况，并且解决方案很简单。有什么我没有考虑到的吗？为什么它不能忽略任何新值？ (2认同)

归档时间：	8 年，9 月前
查看次数：	6452 次
最近记录：	3 年，4 月前