randomForests 包中的 `LocalImp` 参数到底有什么作用?

Ele*_*ino 5 r random-forest

谁能用相对简单的英语解释一下包localImp中参数的作用randomForest

文档randomForest将该参数描述为:

是否应该计算个案重要性度量?(将此设置为 TRUE 将覆盖重要性。)

它还指出它生产:

ap × n 矩阵包含按情况重要性度量,其 [i,j] 元素是第 i 个变量在第 j 个情况下的重要性。如果 localImp=FALSE 则为 NULL

有人可以准确解释这意味着什么,或者向我指出他们详细讨论此参数的论文的方向。

谢谢

lmo*_*lmo 4

randomForest 包或多或少是 Leo Breiman 和 Adel Cutler 编写的 Fortran 代码的包装器。布雷曼是加州大学伯克利分校的统计学教授,在他去世后,他们保留了他的网站。

这是一个很棒的资源:
https ://www.stat.berkeley.edu/~breiman/RandomForests/

在此站点中,他们在分类页面上提到了以下内容:

对于每种情况,请考虑其 oob 的所有树。从未受影响的 oob 数据中正确类别的投票百分比中减去变量 m 排列的 oob 数据中正确类别的投票百分比。这是本例中变量 m 的局部重要性得分。

因此,对于观察 i,取所有未在 i 上训练的树,因为它没有在引导程序中选择。现在,考虑变量 m。排列不包含 i 的每棵树的遗漏 (oob) 观察值的 m 值。计算这些树的平均袋外准确度。还可以计算这些树的袋外精度,而无需排列变量 m 的值。从未排列的 oob 精度中减去排列的 m 精度的平均值即可得到 (i,m) 局部重要性度量。