R随机森林变量重要性

thi*_*y93 46 statistics r data-mining random-forest

我试图使用随机森林包在R中进行分类.

列出的可变重要性措施是:

  • 对于0级,变量x的平均原始重要性得分
  • 第1类的变量x的平均原始重要性得分
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

现在我知道这些"意思"是什么,因为我知道他们的定义.我想知道的是如何使用它们.

我真正想知道的是,这些价值仅仅意味着它们是多么准确,什么是好价值,什么是坏价值,什么是最大值和最小值等等.

如果变量有高MeanDecreaseAccuracy或者MeanDecreaseGini这意味着它是重要的还是不重要的?此外,有关原始分数的任何信息也可能有用.我想知道有关这些数字的所有信息,这些数字与它们的应用相关.

使用"错误","求和"或"置换"等词语的解释将不那么有用,因为更简单的解释不涉及任何关于随机森林如何运作的讨论.

就像我希望有人向我解释如何使用收音机一样,我不希望这个解释涉及无线电如何将无线电波转换成声音.

bub*_*ker 27

使用"错误","求和"或"置换"等词语的解释将不那么有用,因为更简单的解释不涉及任何关于随机森林如何运作的讨论.

就像我希望有人向我解释如何使用收音机一样,我不希望这个解释涉及无线电如何将无线电波转换成声音.

你怎么解释WKRP 100.5 FM中的数字"意味着什么"而没有涉及波频率的讨厌的技术细节?坦率地说,即使您了解一些技术术语,随机森林的参数和相关性能问题也难以理解.

这是我拍摄的一些答案:

- 0级变量x的原始重要性得分

- 类1的变量x的原始重要性得分

从随机森林网页简化,原始重要性分数衡量的是比特定预测变量在成功分类数据中随机有用的程度.

-MeanDecreaseAccuracy

我认为这只是在R模块中,我相信它可以测量该预测器在模型中包含多少可以减少分类错误.

-MeanDecreaseGini

当用于描述社会的收入分配或基于树的分类中的"节点杂质"的度量时,基尼被定义为"不公平".较低的基尼(即基尼的较高减少量)意味着特定的预测变量在将数据划分为定义的类中发挥更大的作用.如果没有谈论分类树中的数据基于预测变量的值在各个节点处被分割的事实,则难以描述.我不太清楚如何将其转化为更好的表现.

  • 请包含实际用于节点拆分的Gini定义的链接:http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity (3认同)

Bre*_*nor 22

对于您的直接关注:更高的值意味着变量更重要.对于您提到的所有措施,情况应该如此.

随机森林为您提供了相当复杂的模型,因此解释重要性度量可能很棘手.如果您想轻松了解变量的作用,请不要使用RF.改为使用线性模型或(非集合)决策树.

你说:

使用"错误","求和"或"置换"等词语的解释将不那么有用,因为更简单的解释不涉及任何关于随机森林如何运作的讨论.

除非你深入研究并了解随机森林的情况,否则解释远比上述情况要困难得多.我假设您抱怨手册或Breiman手册中的部分:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

为了弄清楚变量的重要性,他们用随机垃圾("置换"它)填充它,然后看看预测准确度下降了多少.MeanDecreaseAccuracy和MeanDecreaseGini以这种方式工作.我不确定原始重要性分数是多少.


kpi*_*ce8 6

随机森林的可解释性有点难度.虽然RF是一种非常强大的分类器,但它以民主方式进行预测.通过这个我的意思是你通过获取变量的随机子集和数据的随机子集来构建数百或数千棵树并构建树.然后对所有未选择的数据进行预测并保存预测.它非常强大,因为它可以很好地处理数据集的变幻无常(即它平滑于随机的高/低值,偶然的情节/样本,以不同的方式测量相同的东西等).但是,如果你有一些高度相关的变量,两者似乎都很重要,因为它们并不总是包含在每个模型中.

随机森林的一种可能方法可能是帮助减少预测变量,然后切换到常规CART或尝试使用PARTY包进行基于推理的树模型.但是,您必须对数据挖掘问题保持警惕,并对参数进行推断.