关于信息获取的决策树

Ben*_*307 0 tree decision-tree

如果我在相同数量的节点上有两个决策树,这被认为更好?树1:(F为假,T为真)

替代文字

意思是第一个更宽,但第二个更深.

dav*_*tes 6

我知道这个问题已经很老了,但是如果你仍然对答案感兴趣,一般来说,更短,更宽的树会"更好".考虑这样一个事实,它将需要另外的决定来达到内部决策节点"C".

你真正要看的是每个内部决策节点的增益. 是具有特定变量的不确定性或随机性的量.例如,考虑一个具有两个类的分类器,YESNO(在您的情况下为true或false).如果一个特定的变量或属性,比如x有三个类YES的训练样例和三个训练样例NO(总共六个),则熵将为1.这是因为这两个类的数量相等变量,是你可以得到的最"混乱".同样地,如果x具有特定类的所有六个训练示例,例如YES,则熵将为0,因为该特定变量将是纯的,因此使其成为我们的决策树中的叶节点.

熵可以通过以下方式计算:

在此输入图像描述

现在考虑收益.请注意,决策树的每个级别,我们选择为该节点提供最佳增益的属性.增益只是通过学习随机变量x的状态实现的熵的预期减少.增益也称为Kullback-Leibler分歧.可以通过以下方式计算增益:

Kullback-Leibler分歧