分类错误率的定义以及为什么一些研究人员使用错误率而不是准确性

par*_*egh 6 classification machine-learning

分类错误率的确切定义是什么?为什么有些研究人员使用错误率而不是准确性来报告他们的结果?我试图将我的文本分类结果与文献中的其他方法进行比较,但他们使用错误率而不是准确性,我找不到确切的定义/方程来找到我的方法的错误率。

MyS*_*ver 8

对于分类,您的输出是离散的(就像您将项目放入桶中一样),因此准确度有一个非常简单的定义:

准确率 =(# 分类正确)/(# 分类总数)

错误率同样简单:

错误率 = 1 - 准确率 = 1 -(# 分类正确)/(# 分类总数)

=(#分类不正确)/(#分类总数)

请注意,对于具有连续输出的任务,事情要复杂得多。如果不是将物品放入桶中,而是让模型将物品放在数轴上,那么准确性不再是“正确”“错误”的问题,而是我的模型与正确的接近程度。这可能是平均接近度、中值接近度等。有更复杂的度量,它们的不同主要在于它们在距离增加时权衡的程度。也许偏离一点点比偏离很多点要差得多,所以均方根误差测量是合适的。另一方面,无论是少还是多,多于一点都可能是可怕的,


回答您问题的最后一部分:在离散情况下,为什么要选择准确度与误差?光学是一回事:“99% 的准确率”“有 1% 的错误率”传递出不同的心理信息。此外,准确率从 99% 增加到 99.9% 是准确率增加了 1%,但错误从 1% 减少到 0.1% 是错误减少了 90%,即使两者表达的是相同的真实世界改变。

否则,可能是个人喜好或写作风格。

编辑:您可能也对 Statistics Stack Exchange 上的这篇文章感兴趣