我知道这个问题已经很老了,但是如果你仍然对答案感兴趣,一般来说,更短,更宽的树会"更好".考虑这样一个事实,它将需要另外的决定来达到内部决策节点"C".
你真正要看的是每个内部决策节点的熵和增益. 熵是具有特定变量的不确定性或随机性的量.例如,考虑一个具有两个类的分类器,YES和NO(在您的情况下为true或false).如果一个特定的变量或属性,比如x有三个类YES的训练样例和三个训练样例NO(总共六个),则熵将为1.这是因为这两个类的数量相等变量,是你可以得到的最"混乱".同样地,如果x具有特定类的所有六个训练示例,例如YES,则熵将为0,因为该特定变量将是纯的,因此使其成为我们的决策树中的叶节点.
熵可以通过以下方式计算:

现在考虑收益.请注意,决策树的每个级别,我们选择为该节点提供最佳增益的属性.增益只是通过学习随机变量x的状态实现的熵的预期减少.增益也称为Kullback-Leibler分歧.可以通过以下方式计算增益:
