我在lm不使用data=参数的情况下构建了一个模型:
m1 <- lm( mdldvlp.trim$y ~ gc.pc$scores[,1] + gc.pc$scores[,2] + gc.pc$scores[,3] +
gc.pc$scores[,4] + gc.pc$scores[,5] + gc.pc$scores[,6] + predict(gc.tA))
Run Code Online (Sandbox Code Playgroud)
现在我想预测m1使用newdata并命名我的新data.frame以匹配lm()上面调用中使用的变量.
随着newComps我的新gc.pc(与gc.tA预测一样,使用新的data.frame预测没有任何问题),我试过了
newD <- data.frame( newComps[1:100,1:6] ,
predict(gc.tA , newdata = mdldvlp[1:100,predKept]))
names(newD) <- names(m1$coefficients)[-1]
names(newD) <- names(m1$model)[-1]
names(newD) <- c( "gc.pc$scores[, 1]" , "gc.pc$scores[, 2]" , "gc.pc$scores[, 3]" ,
"gc.pc$scores[, 4]" , "gc.pc$scores[, 5]" , "gc.pc$scores[, 6]" ,
"predict(gc.tA)" )
names(newD) <- c( "gc.pc$scores[,1]" , "gc.pc$scores[,2]" , "gc.pc$scores[,3]" ,
"gc.pc$scores[,4]" , "gc.pc$scores[,5]" , "gc.pc$scores[,6]" ,
"predict(gc.tA)" )
Run Code Online (Sandbox Code Playgroud)
不幸的是,predict.lm不接受上面的命名策略并返回可怕的newdata警告以及构建的原始data.frame的预测m1:
Warning message:
'newdata' had 100 rows but variable(s) found have 1414 rows
Run Code Online (Sandbox Code Playgroud)
如何命名newD列以使predict调用工作?谢谢.
下面的代码重现了这个问题:
require(rpart)
set.seed(123)
X <- matrix(runif(200) , 20 , 10)
gc.pc <- princomp(X)
y <- runif(20)
mdldvlp.trim <- data.frame(y,X)
names(mdldvlp.trim) <- c("y",paste("x",1:10,sep=""))
predKept <- paste("x",1:10,sep="")
gc.tA <- rpart( y ~ . , data = mdldvlp.trim)
m1 <- lm( mdldvlp.trim$y ~ gc.pc$scores[,1] + gc.pc$scores[,2] + gc.pc$scores[,3] +
gc.pc$scores[,4] + gc.pc$scores[,5] + gc.pc$scores[,6] + predict(gc.tA))
mdldvlp <- data.frame(matrix(runif(2000) , 200 , 10))
names(mdldvlp) <- predKept
newComps <- predict( gc.pc , newdata=mdldvlp )
newD <- data.frame( newComps[1:100,1:6] ,
predict(gc.tA , newdata = mdldvlp[1:100,predKept]))
# enter newD naming strategy here
predict( m1 , newdata=newD )
Run Code Online (Sandbox Code Playgroud)
谢谢大家的回答.我理解通过首先使用正确命名的预测变量创建data.frame会更容易.我明白那个.我的问题是,如果建模数据框确实评估到具有名称gc.pc$scores[,1]等变量的数据框,那么为什么上面使用的命名"策略"不能用于predict.lm?换句话说,lm真的用它等评估其建模数据框架gc.pc$scores[,1]吗?如果是这样,上面的重命名策略不会起作用predict.lm吗?
您正在滥用公式表示法,这是导致您出现问题的原因.基本上你的公式:
m1 <- lm( mdldvlp.trim$y ~ gc.pc$scores[,1] + gc.pc$scores[,2] +
gc.pc$scores[,3] + gc.pc$scores[,4] +
gc.pc$scores[,5] + gc.pc$scores[,6] +
predict(gc.tA))
Run Code Online (Sandbox Code Playgroud)
将评估一个名为gc.pc$scores[,1]等变量的数据框.使用predict()它时,将在传递给newdata参数的对象中查找具有相同名称的变量.
理想情况下,您可以使用适当的名称创建一个包含所有要包含的变量的数据对象,例如:
fitData <- data.frame(mdldvlp.trim$y, gc.pc$scores[, 1:6], predict(gc.tA))
names(fitData) <- c("trimY", paste("scores", 1:6, sep = ""), "preds")
Run Code Online (Sandbox Code Playgroud)
然后通过以下方式拟合模型:
m1 <- lm(trimY ~ ., data = fitData)
Run Code Online (Sandbox Code Playgroud)
通过提供与用于拟合模型的名称相同的数据框,可以从模型中进行新的预测.因此使用你的newD:
newD <- data.frame(newComps[1:100,1:6] ,
predict(gc.tA , newdata = mdldvlp[1:100,predKept]))
names(newD) <- c(paste("scores", 1:6, sep = ""), "preds")
Run Code Online (Sandbox Code Playgroud)
然后 predict()
predict(m1 , newdata=newD)
Run Code Online (Sandbox Code Playgroud)
require(rpart)
set.seed(123)
X <- matrix(runif(200) , 20 , 10)
gc.pc <- princomp(X)
y <- runif(20)
mdldvlp.trim <- data.frame(y,X)
names(mdldvlp.trim) <- c("y",paste("x",1:10,sep=""))
predKept <- paste("x",1:10,sep="")
gc.tA <- rpart( y ~ . , data = mdldvlp.trim)
fitData <- data.frame(mdldvlp.trim$y, gc.pc$scores[, 1:6], predict(gc.tA))
names(fitData) <- c("trimY", paste("scores", 1:6, sep = ""), "preds")
m1 <- lm(trimY ~ ., data = fitData)
mdldvlp <- data.frame(matrix(runif(2000) , 200 , 10))
names(mdldvlp) <- predKept
newComps <- predict( gc.pc , newdata=mdldvlp )
newD <- data.frame(newComps[1:100,1:6] ,
predict(gc.tA , newdata = mdldvlp[1:100,predKept]))
names(newD) <- c(paste("scores", 1:6, sep = ""), "preds")
predict(m1 , newdata=newD)
Run Code Online (Sandbox Code Playgroud)
我过去遇到过类似的问题 - 我想我通过给出变量名称而不是引用列号来解决它。例如,不要使用 gc.pc[,1],而是将 gc.pc 矩阵转换为数据帧并向列添加名称(“PC1”、“PC2”等)。然后确保您的新数据也使用这些名称(也在数据框中)。