如何从回归树rpart对象生成预测区间?

gol*_*ine 9 tree r prediction

如何从使用rpart的回归树生成预测区间?

据我所知,回归树以叶节点的平均值为条件对响应进行建模.我不知道如何从模型中获得叶节点的方差,但我想要做的是使用叶节点的均值和方差来模拟以获得预测间隔.

Predict.rpart()没有给出interval的选项.

示例:我使用虹膜数据拟合树,但是预测没有选项,"间隔"

> r1 <- rpart(Sepal.Length ~ ., cp = 0.001, data = iris[1:nrow(iris)-1,])
> predict(r1,newdata=iris[nrow(iris),],type = "interval")
Error in match.arg(type) : 
  'arg' should be one of “vector”, “prob”, “class”, “matrix”
Run Code Online (Sandbox Code Playgroud)

cmb*_*rbu 8

我不清楚回归树的置信区间意味着什么,因为那些不是像线性模型那样的经典统计模型.我主要看到两种用途:表征树的确定性或表征树的每个叶子的预测精度.以下是每种可能性的答案.

表征你的树的确定性

如果要查找拆分节点的置信度值,则party直接提供该值,因为它使用置换测试并统计确定哪些变量最重要,并将p值附加到每个拆分.这里所解释partyctree功能的显着优势.rpart

回归树的设置叶子的置信区间

第三,如果您正在寻找每个叶片中值的间隔置信度,那么叶片中观察值的[0.025,0.975]分位数间隔很可能是您正在寻找的.party当显示每个叶子的输出值的箱线图时,默认图采用类似的方法:

library("party")
r2 <- ctree(Sepal.Length ~ .,data=iris)
plot(r2)    
Run Code Online (Sandbox Code Playgroud)

示例聚会树

检索相应的间隔可以简单地通过以下方式完成:

iris$leaf <- predict(r2, type="node")
CIleaf <- aggregate(iris$Sepal.Length,
                    by=list(leaf=iris$leaf),
                    quantile,
                    prob=c(0.025, 0.25, 0.75, 0.975))
Run Code Online (Sandbox Code Playgroud)

它很容易可视化:

plot(as.factor(CIleaf$leaf), CIleaf[, 2],
     ylab="Sepal length", xlab="Regression tree leaf")
legend("bottomright",
       c(" 0.975 quantile", " 0.75 quantile", " mean", 
         " 0.25 quantile", " 0.025 quantile"),
       pch=c("-", "_", "_", "_", "-"),
       pt.lwd=0.5, pt.cex=c(1, 1, 2, 1, 1), xjust=1)
Run Code Online (Sandbox Code Playgroud)

每个回归树叶的萼片长度方差