为什么在决策树中使用交叉熵而不是0/1损失

Bra*_*wan 1 statistics machine-learning decision-tree random-forest scikit-learn

我知道交叉熵/互信息如何作为损失函数在分类决策中发挥作用。但我想知道为什么 0/1 损失不是一个好的选择。

ely*_*ely 5

在一般机器学习的背景下,很少使用 0-1 损失的主要原因是 0-1 损失不是凸损失函数,并且在 0 处不可微。事实证明,解决问题恰恰与0-1失利有关。这是讨论直接优化 0-1 损失的一些方法的来源。

交叉熵可以理解为 0-1 损失的松弛,其方式代表相同的一般思想(根据候选分类预测该示例的正确标签的程度将“成功”归因于候选分类),但它是凸的。

在您在标题中提到的决策树的特定上下文中,至少有两个与此相关的重要考虑因素。

  • 在普通决策树训练中,用于修改模型参数(决策分割)的标准是分类纯度的某种度量,例如信息增益基尼杂质,这两者都代表了与分类设置中的标准交叉熵不同的东西问题。实际上,这里可以使用 0-1 损失作为分割标准,这也称为使用错误分类率。这里有一些 PDF 讲义,在幻灯片 19 上,它们展示了信息增益和基尼不纯度的平滑函数的漂亮图,与错误分类率的不可微分的尖锐点进行了对比。

  • 在梯度提升树中,您再次需要一个可微的损失函数,该函数主要在使用均方误差的回归树的背景下讨论,通常指的是偏差损失或用于分类的“指数”(AdaBoost)损失,但它原则上可以以某种定制的方式使用交叉熵。

对于从凸损失函数或至少可微损失函数中获益匪浅的问题,例如训练基于神经网络的分类器,使用交叉熵等松弛函数的好处通常非常巨大,并且在完全优化损失函数方面通常没有太多实际价值。 0-1负。

对于普通决策树,您可以使用 0-1 损失来计算每个建议分割的准确度指标,您不是在处理相同的 NP 难优化问题,而是只是使用 0-1 损失作为分割标准,并且仍然只是搜索每个具有观察值的可能的特征分割f数量。dfd

我相信你可以提出一些激烈的论点,即信息增益或基尼不纯度允许对给定特征分割的信息性进行更细致的解释,或者也许你可以更可信地认为,纯粹优化每个分割的原始分类准确性可以导致严重的过度拟合,尤其是使用贪婪方法。

但最后,如果您有理由相信这是解决您正在处理的给定建模问题的一种有价值的方法,那么您就没有理由不能使用 0-1 损失作为分割标准。