weka AdaBoost不会改善结果

ant*_*one 3 machine-learning data-mining bayesian weka adaboost

在我的学士论文中,我应该在文本分类问题上使用带有MultinomialNaiveBayes分类器的AdaBoostM1.问题在于,在大多数情况下,M1没有增强的情况下更糟或等于MultinomialNaiveBayes.

我使用以下代码:

AdaBoostM1 m1 = new AdaBoostM1();
m1.setClassifier(new NaiveBayesMultinomial());
m1.buildClassifier(training);
Run Code Online (Sandbox Code Playgroud)

所以我不明白AdaBoost怎么会无法改善结果呢?不幸的是,我在网上找不到任何其他相关内容,因为大多数人似乎对AdaBoost非常满意.

Dav*_*ers 5

AdaBoost是一个二进制/二分/ 2级分类器,旨在提高弱于1/2精度的学习者.AdaBoostM1是一个M级分类器,但仍需要弱学习者优于1/2精度,当人们预期机会水平约为1/M. 平衡/加权最初用于获得相同的流行类别,但AdaBoost固有的重新加权可以迅速消除这种情况.一个解决方案是以Kappa或Informedness(AdaBook)等机会纠正措施为基础.

随着M的增长,例如通过文本分类,这种不匹配会增加,因此需要比机会分类器强得多.因此,当M = 100时,AdaBoostM1需要几率为1%但最低精度为50%.

随着基础分类器越来越强大(即不再勉强超过机会),提升改善事物的范围缩小 - 它已经把我们拉到了搜索领域的一个非常特定的部分.它越来越可能适应错误和异常值,因此无法平衡各种变体.

关于知情的一些资源(包括matlab代码和xls表和早期论文)在这里:http://david.wardpowers.info/BM与其他机会校正的kappa措施的比较在这里:http://aclweb.org /anthology-new/E/E12/E12-1035.pdf

可以使用Bookmaker信息获取Adaboost的weka实现和实验 - 联系作者.