关于垃圾邮件检测中精度和召回的困惑

Question

我正在做一个根据教程检测垃圾邮件帐户的项目.两个标签 - "垃圾邮件"和"非垃圾邮件"用于训练和测试.分类已经完成,我正在进行评估.

结果是:

*Spam* precision: 0.962917933131
*Spam* recall: 0.6336

*Not spam* precision: 0.72697466468
*Not spam* recall: 0.9756

我已经阅读了精确和召回的维基,仍然感到困惑,并且不知道如何将它用于测量.

我的目的是减少标记为"垃圾邮件"的普通帐户的数量.一些"垃圾邮件"帐户可以逃脱并不重要.所以我想知道上面哪些结果我应该集中精力改进？谢谢.

Answer 1

精确度是分类为正数的结果的一部分,这确实是正数.

召回是检测到的所有阳性结果的一部分.

我的目的是减少标记为"垃圾邮件"的普通帐户的数量.

这意味着您希望最大化垃圾邮件的精确度并召回非垃圾邮件.您链接的Wiki页面解释了您需要知道的所有内容 - 实际上您的目的是最大限度地减少"误报"的数量(包含在这两个特征中).

建议的关键短语:混淆矩阵.