决策树中的Shannon熵测度

Question

为什么Shannon的熵测量用于决策树分支？

熵(S)= - p(+)log(p(+)) - p( - )log(p( - ))

我知道这是衡量否定的标准.编码信息所需的比特数; 分布越均匀,熵越多.但我不明白为什么它经常应用于创建决策树(选择一个分支点).

Answer 1

因为您想提出能够为您提供最多信息的问题.目标是最小化树中的决策/问题/分支的数量,因此您从提供最多信息的问题开始,然后使用以下问题填写详细信息.