为什么C4.5算法使用修剪来减少决策树以及修剪如何影响预测精度?

ksm*_*001 9 decision-tree weka pruning

我在google上搜索过这个问题,我找不到能够以简单而详细的方式解释这个算法的东西.

例如,我知道id3算法根本不使用修剪,因此如果你有连续特征,预测成功率将非常低.

所以C4.5为了支持它使用修剪的连续特性,但这是唯一的原因吗?

此外,我在WEKA应用程序中无法理解,置信因子究竟如何影响预测的效率.置信因子越小,算法修剪越多,但修剪与预测精度之间的相关性是多少?修剪越多,预测越好或越差?

谢谢

Lar*_*off 17

修剪是一种减少决策树大小的方法.这将降低训练数据的准确性,但(通常)会提高无法看到的数据的准确性.它用于缓解过度拟合,您可以在训练数据上获得完美的准确性,但您学习的模型(即决策树)是如此具体,以至于它不适用于除训练数据之外的任何其他内容.

通常,如果增加修剪,训练集的准确性会降低.然而,WEKA提供了各种更好的估计精度的东西,即训练/测试分割或交叉验证.例如,如果您使用交叉验证,您将发现修剪置信因子的"最佳位置",它可以修剪足够的数据以使学习的决策树在测试数据上足够准确,但不会牺牲太多的准确性.培训数据.然而,这个最佳位置取决于您的实际问题,唯一可靠的方法就是尝试.