She*_* Bi 1 algorithm statistics entropy decision-tree random-forest
下面的问题让我很困惑。你能帮我吗?(最好找一些学术参考。)
我们通常使用base-2 log函数来计算决策树中的熵,这是因为大多数节点只允许二进制分支吗?
如果我想要一个有很多分支的节点,log2在理论上是否仍然有效?
比如在Xgboost中,训练集的输入应该是矩阵的形式,我认为这意味着我们只能把数值作为输入。
非常感谢!
max*_*axy 5
对数的底数 2 几乎可以肯定是因为我们喜欢以位为单位测量熵。这只是一个约定,有些人使用 base e 代替(nats 而不是位)。
我不能谈论 Xgboost,但对于离散决策问题,熵作为一种性能衡量指标发挥作用,而不是直接作为树结构的结果。您可以仅根据熵的定义计算任何拆分(使用任何分支因子)的信息增益。
如果您正在寻找一本关于信息论和概率的书,我强烈推荐MacKay(提供完整的 PDF)。他涵盖了很多机器学习和统计。然而,决策树不包括在内。
归档时间:
6 年,11 月 前
查看次数:
1300 次
最近记录: