小编Zhe*_*nya的帖子

了解“ randomForest” R包中每个类的变量重要性

我无法理解randomForest内部重要性函数中的按类列。

我的数据集有两个类,“当前”和“已离开”。为了预测这些类别,

我首先创建一个随机森林模型:

fit <- randomForest(IsDeparted ~ ..., df_train),
Run Code Online (Sandbox Code Playgroud)

然后,我运行重要性函数:

importance(fit)   
Run Code Online (Sandbox Code Playgroud)

现在,我得到如下结果片段:

重要性度量分为四列:“当前”,“已离开”,“ MDA”,“ GiniDecrease”

有人可以解释如何解释前两类的列吗?排列特定变量的值后,预测该特定类别的准确性的平均下降是吗?如果是这样,这是否意味着如果我对某一类的模型性能更感兴趣,那么在进行特征选择时我应该专注于这些列而不是MDA列?

r classification machine-learning feature-selection random-forest

5
推荐指数
1
解决办法
544
查看次数