置信区间/召回率或精度范围

Question

如果我有一个基于样本集的混淆矩阵，如何确定召回率/精度/等指标的统计功效（置信度/间隔）？我知道如何对转换概率本身进行统计功效分析，但是如何为召回/精确度做统计功效分析？

Answer 1

找到了答案。它是标准置信区间计算的p +/- Z_score_at_alpha * std_error的略微修改公式。唯一的区别是p（基本上是您的召回概率）是通过偏移量-> Adjusted_recall =（TP + 2）/（TP + FN + 4）计算的。

通常的想法是，当p为0或1时，标准置信区间方程不起作用。这只是一个软糖因素。

此外，现在的标准错误为sqrt（adjusted_recall（1-adjusted_recall）/（N + 4））。这就是所谓的威尔逊得分间隔- https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval