Precision-Recall曲线的阈值是多少?

Mr.*_*r.A 18 classification machine-learning auc precision-recall model-comparison

我知道Precision的概念以及Recall的概念.但我发现很难理解"阈值"的概念,它可以使任何PR曲线成为可能.

想象一下,我有一个模型可以预测患者在相关特征上使用一些不错的分类算法来重现(是或否)癌症.我将数据拆分用于培训和测试.假设我使用列车数据训练模型,并使用测试数据获得我的精确度和召回度量.

但我现在如何绘制PR曲线?在什么基础上?我只有两个值,一个精度和一个召回.我读到它的"阈值",它允许你获得几个精确回忆对.但那个门槛是多少?我还是初学者,我无法理解门槛的概念.

我在如此多的分类模型比较中看到,如下所示.但他们如何得到那么多对呢?

使用精确回忆曲线的模型比较

lna*_*han 18

首先,你应该删除'roc''auc'标签,因为精确回忆曲线是不同的:

ROC曲线:

  • x轴:假阳性率FPR = FP /(FP + TN)= FP/N.
  • y轴:真正正率TPR =召回= TP /(TP + FN)= TP/P.

精确回忆曲线:

  • x轴:Recall = TP /(TP + FN)= TP/P = TPR
  • y轴:精度= TP /(TP + FP)= TP/PP

您的癌症检测示例是二元分类问题.您的预测基于概率.(不)患癌症的可能性.

通常,如果P(A)> 0.5(您的阈值),则实例将被分类为A. 对于此值,您将根据True Positives,True Negatives,False Positives和False Negatives获得Recall-Precision对.

现在,当您更改0.5阈值时,您会得到不同的结果(不同的对).您已经可以将患者分类为"有癌症",P(A)> 0.3.这将降低精度并增加召回.你宁愿告诉别人他患有癌症,即使他没有,也要确保患有癌症的患者一定能得到他们需要的治疗.这代表了TPR和FPR或精确和召回或灵敏度和特异性之间的直观权衡.

让我们在生物统计学中更常见的是添加这些术语.

  • 灵敏度= TP/P =召回= TPR
  • 特异性= TN/N =(1 - FPR)

ROC曲线和Precision-Recall曲线可视化分类器的所有这些可能阈值.

如果仅靠准确性不是合适的质量测量,您应该考虑这些指标.将所有患者分类为"没有癌症"将给您最高的准确度,但您的ROC和Precision-Recall曲线的值将是1和0.

  • +1 以获得清晰的解释。但是,我有几个问题,如果我将 P(A) > 0.3 的患者归类为“患有癌症”,实际上我最终会将许多患者标记为癌症的“阳性”,对吗?这意味着,误报会很高,导致精度低。我在这里错过了什么吗? (3认同)
  • 不,召回会很高.您在第一条评论中注意到,精度会很低. (2认同)