任何人都可以解释scikit中的RandomForestClassifier和ExtraTreesClassifier之间的区别.我花了很多时间阅读论文:
P. Geurts,D.Ernst.和L. Wehenkel,"极度随机树",机器学习,63(1),3-42,2006
看来这些是ET的区别:
1)当在分割中选择变量时,从整个训练集中抽取样本而不是训练集的自举样本.
2)从每次分裂的样品中的值范围中完全随机地选择裂解.
这两件事的结果是更多的"叶子".
我正在使用 Python 在 H2O 中构建二进制分类模型。我的 'y' 值是 'ok' 和 'bad'。我需要使用 ok = negative class = 0 和 bad = positive class = 1 来计算指标。但是,我看不到在 H2O 中设置它的任何方法。例如,这里是预测和混淆矩阵的输出:
confusion matrix
bad ok Error Rate
bad 3859 631 0.1405 (631.0/4490.0)
ok 477 1069 0.3085 (477.0/1546.0)
Total 4336 1700 0.1836 (1108.0/6036.0)
>>> predictions.head(10)
predict bad ok
0 bad 0.100604 0.899396
1 bad 0.100604 0.899396
2 bad 0.112232 0.887768
3 ok 0.068917 0.931083
4 ok 0.089706 0.910294
5 ok 0.089706 0.910294
6 ok 0.089706 0.910294 …Run Code Online (Sandbox Code Playgroud)