Coc*_*oco 2 machine-learning cross-validation gbm h2o imbalanced-data
我想用 H2O 构建一个 GBM 模型。我的数据集不平衡,所以我使用 balance_classes 参数。对于网格搜索(参数调整),我想使用 5 折交叉验证。我想知道在这种情况下 H2O 如何处理类平衡。只会重新平衡训练折叠吗?我想确保测试折叠没有重新平衡。
在类不平衡设置中,人为地平衡测试/验证集没有任何意义:这些集必须保持现实,即您想在现实世界设置中测试分类器的性能,例如,负类将包括 99%样本中,以查看您的模型在预测 1% 的正类感兴趣且没有太多误报方面的表现。人为地夸大少数类或减少多数类将导致不切实际的性能指标,与您试图解决的现实世界问题没有实际关系。
为了证实,这里是caretR 包的创建者和(强烈推荐的)应用预测建模教科书的合著者 Max Kuhn,在电子书的第 11 章:类不平衡的子采样caret:
你永远不会想要人为地平衡测试集;它的类别频率应该与人们在“野外”看到的一致。
重新平衡仅在训练集中才有意义,以防止分类器简单天真地将所有实例分类为负面,感知准确率为 99%。
因此,您可以放心,在您描述的设置中,重新平衡仅对训练集/折叠采取行动。
| 归档时间: |
|
| 查看次数: |
1880 次 |
| 最近记录: |