Sur*_*shi 1 matlab random-forest
在MATLAB中,TreeBagger类提供了一个PermutedVarDeltaError测量变量重要性的属性.我已多次查看提供的定义:
对于任何变量,度量是预测误差的增加,如果
values of that variable are permuted across the observations.为每个树计算该度量,然后在整个集合上求平均值并除以整个集合的标准偏差.
我无法理解该部分values of that variable are permuted across the observations.有人可以向我解释一下吗?
想象一下,你有一个包含N个变量和M个观测值的数据集,你在它上面训练一个模型(它不一定是a TreeBagger).
现在假设您采用单个变量,并随机重新排序(置换)其所有M值,同时保持数据集的其余部分的顺序相同.你重新训练模型.
如果新模型的精度突然下降(即其误差具有较大的增量),那么该变量显然对原始模型的准确性很重要.
相比之下,如果新模型的准确性仍然非常相似,即使您随机重新排序该变量的值,那么该变量首先也不是非常重要.
因此,此度量PermutedVarDeltaError(在置换特定变量的值时模型误差的差异)是该变量重要性的度量.
现在它变得有点复杂了TreeBagger,因为这是一个由多个子模型组成的集合模型.但基本的事情是相同的 - 你只是为每个子模型测量它,然后在模型中取平均值,用标准偏差对其进行标准化,并且你有一个整体集合的度量.