对数丢失输出大于1

OAK*_*OAK 13 machine-learning metric loss scikit-learn

我为欺诈领域的文档二进制分类准备了几个模型.我计算了所有型号的对数损失.我认为它主要是测量预测的置信度,并且对数损失应该在[0-1]的范围内.我认为,当结果 - 确定课程不足以进行评估时,它是分类中的一项重要措施.因此,如果两个模型具有非常接近的acc,召回和精度,但是具有较低的对数损失函数,则应该选择它,因为在决策过程中没有其他参数/​​度量(例如时间,成本).

决策树的日志丢失为1.57,对于所有其他模型,它在0-1范围内.我如何解释这个分数?

Dav*_*ust 34

记住日志丢失没有上限是很重要的.记录丢失存在于[0,∞)范围内

Kaggle我们可以找到日志丢失的公式.

记录丢失

其中y ij为1表示正确的类,0表示其他类,p ij是为该类指定的概率.

如果我们看一下平均日志损失超过1的情况,那么当i是真正的类时,log(p ij)<-1 .这意味着该给定类的预测概率将小于exp(-1)或大约0.368.因此,在您的模型仅给出实际类别的概率估计值低于36%的情况下,可以预期会出现大于1的对数丢失.

我们还可以通过绘制给定各种概率估计的对数损失来看到这一点.

对数损失曲线

  • 感谢您的彻底回答! (2认同)
  • 很好的答案,尤其是图片 (2认同)