如何确定RandomForestClassifier中的feature_importances？

Question

我有一个分类任务,时间序列作为数据输入,其中每个属性(n = 23)代表一个特定的时间点.除了绝对分类结果我想知道,哪些属性/日期对结果的贡献程度如何.所以我只是使用它feature_importances_,这对我很有用.

但是,我想知道如何计算它们以及使用哪种度量/算法.很遗憾,我找不到有关此主题的任何文档.

Answer 1

确实有几种方法可以获得"重要性"功能.通常,对于这个词的含义没有严格的共识.

在scikit-learn中,我们实现了[1]中描述的重要性(经常被引用,但遗憾的是很少阅读......).它有时被称为"基尼重要性"或"平均减少杂质",并被定义为节点杂质的总减少量(通过到达该节点的概率加权(通过到达该节点的样本的比例近似))合奏的树木.

在文献或其他一些软件包中,您还可以找到以"平均降低精度"实现的特征重要性.基本上,当您随机置换该功能的值时,我们的想法是测量OOB数据的准确性降低.如果降低量较低,则该特征不重要,反之亦然.

(请注意,这两种算法都可以在randomForest R包中找到.)

[1]:Breiman,Friedman,"分类和回归树",1984年.

如果在重要性属性/示例的文档中提到了这个答案,那可能会很棒.一直在寻找它:) (45认同)
@RNA:是的,默认情况下,变量导入在scikit-learn中被标准化,因此它们总和为1.您可以通过循环各个基本估计器并调用`tree_.compute_feature_importances(normalize = False)`来避免这种情况. (5认同)
似乎重要性得分是相对价值的？例如,所有要素的重要性得分总和始终为1(请参阅此处的示例http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances- PY) (2认同)
@GillesLouppe您是否使用袋外样本来衡量每棵决策树回归树森林中MSE的减少？还是树上使用了所有训练数据？ (2认同)