计算决策树中的熵(机器学习)

Question

我知道计算熵的公式:

H(Y) = - ? (p(yj) * log2(p(yj)))

在单词中,选择一个属性,并为每个值检查目标属性值...所以p(yj)是节点N的模式在类别yj中的一部分 - 一个用于目标值中的true,一个用于false.

但我有一个数据集,其中目标属性是价格,因此范围.如何计算这种数据集的熵？

Answer 1

您首先需要以某种方式对数据集进行离散化,例如将数字排序到多个存储桶中.存在许多用于离散化的方法,一些监督(即考虑目标函数的值)而一些不是.本文概述了相当笼统的各种技术.对于更具体的细节,Weka等机器学习库中有许多离散化算法.

连续分布的熵称为微分熵,也可以通过假设您的数据以某种方式分布(例如正态分布),然后以正常方式估计垫层分布,并使用它来计算熵值来估计.