如何提高matlab中决策树的准确性

use*_*755 2 matlab classification machine-learning decision-tree

我有一组数据,我使用决策树在matlab中对它们进行分类.我将这组分为两部分; 一个训练数据(85%)和其他测试数据(15%).问题是准确率在90左右,我不知道如何改进它.如果您对此有任何想法,我将不胜感激.

小智 5

由于许多原因,决策树可能表现较低,我可以想到的一个突出原因是,在计算拆分时,他们不考虑变量或目标变量对其他变量的相互依赖性.在改进性能之前,应该意识到它不会导致过度拟合并且应该能够推广.

为了提高性能,可以完成以下几项工作:

  • 变量预选:可以进行不同的测试,如多重共线性测试,VIF计算,变量IV计算,只选择几个顶部变量.这将导致性能提高,因为它会严格删除不需要的变量.

  • 集成学习使用多个树(随机森林)来预测结果.随机森林通常比单一决策树表现良好,因为它们设法减少偏差和方差.它们也不太容易过度拟合.

  • K-fold交叉验证:训练数据本身的交叉验证可以稍微提高模型的性能.

  • 混合模型:使用混合模型,即在使用决策树后使用逻辑回归来提高性能.