谁能用相对简单的英语解释一下包localImp中参数的作用randomForest?
文档randomForest将该参数描述为:
是否应该计算个案重要性度量?(将此设置为 TRUE 将覆盖重要性。)
它还指出它生产:
ap × n 矩阵包含按情况重要性度量,其 [i,j] 元素是第 i 个变量在第 j 个情况下的重要性。如果 localImp=FALSE 则为 NULL
有人可以准确解释这意味着什么,或者向我指出他们详细讨论此参数的论文的方向。
谢谢
randomForest 包或多或少是 Leo Breiman 和 Adel Cutler 编写的 Fortran 代码的包装器。布雷曼是加州大学伯克利分校的统计学教授,在他去世后,他们保留了他的网站。
这是一个很棒的资源:
https ://www.stat.berkeley.edu/~breiman/RandomForests/
在此站点中,他们在分类页面上提到了以下内容:
对于每种情况,请考虑其 oob 的所有树。从未受影响的 oob 数据中正确类别的投票百分比中减去变量 m 排列的 oob 数据中正确类别的投票百分比。这是本例中变量 m 的局部重要性得分。
因此,对于观察 i,取所有未在 i 上训练的树,因为它没有在引导程序中选择。现在,考虑变量 m。排列不包含 i 的每棵树的遗漏 (oob) 观察值的 m 值。计算这些树的平均袋外准确度。还可以计算这些树的袋外精度,而无需排列变量 m 的值。从未排列的 oob 精度中减去排列的 m 精度的平均值即可得到 (i,m) 局部重要性度量。
| 归档时间: |
|
| 查看次数: |
1109 次 |
| 最近记录: |