dat*_*Sci 2 classification machine-learning scikit-learn
我正在 sklearn 中尝试 k_fold 交叉验证,并且对 f1_score 中的 pos_label 参数感到困惑。我知道 pos_label 参数与如果类别不是二进制的情况下如何处理数据有关。但我对它的重要性并没有很好的概念性理解 - 有没有人对它在概念层面上的含义有很好的解释?
我已经阅读了文档,但它们并没有真正的帮助。
f1 分数是precision 和recall的调和平均值。因此,您需要计算精度和召回率来计算 f1 分数。这两个度量都是参考“真阳性”(阳性实例分配了一个阳性标签)、“假阳性”(阴性实例分配了一个阳性标签)等来计算的。
该pos_label参数允许您指定为了进行此计算而应将哪个类视为“正”类。
更具体地说,假设您正在尝试构建一个分类器,以在大量无趣事件的背景中发现一些罕见事件。一般而言,您关心的是如何识别这些罕见的结果;背景标签本身并不有趣。在这种情况下,您将pos_label成为您感兴趣的班级。如果您处于关心所有课程结果的情况,f1_score这可能不是合适的指标。
| 归档时间: |
|
| 查看次数: |
3234 次 |
| 最近记录: |