use*_*755 2 matlab classification machine-learning decision-tree
我有一组数据,我使用决策树在matlab中对它们进行分类.我将这组分为两部分; 一个训练数据(85%)和其他测试数据(15%).问题是准确率在90左右,我不知道如何改进它.如果您对此有任何想法,我将不胜感激.
小智 5
由于许多原因,决策树可能表现较低,我可以想到的一个突出原因是,在计算拆分时,他们不考虑变量或目标变量对其他变量的相互依赖性.在改进性能之前,应该意识到它不会导致过度拟合并且应该能够推广.
为了提高性能,可以完成以下几项工作:
变量预选:可以进行不同的测试,如多重共线性测试,VIF计算,变量IV计算,只选择几个顶部变量.这将导致性能提高,因为它会严格删除不需要的变量.
集成学习使用多个树(随机森林)来预测结果.随机森林通常比单一决策树表现良好,因为它们设法减少偏差和方差.它们也不太容易过度拟合.
K-fold交叉验证:训练数据本身的交叉验证可以稍微提高模型的性能.
混合模型:使用混合模型,即在使用决策树后使用逻辑回归来提高性能.
| 归档时间: |
|
| 查看次数: |
9071 次 |
| 最近记录: |