什么是糟糕,体面,优秀和出色的F1测量范围?

Kub*_*888 15 precision performance measurement machine-learning precision-recall

我知道F1-measure是精确度和召回率的调和平均值.但是什么价值观定义了F1衡量标准的优劣?我似乎找不到任何引用(谷歌或学术)回答我的问题.

Sid*_*hou 12

考虑sklearn.dummy.DummyClassifier(strategy='uniform')哪个是进行随机猜测的分类器(又称坏分类器).我们可以将DummyClassifier视为击败的基准,现在让我们看看它的f1得分.

在二元分类问题中,使用平衡数据集:总样本为6198,标记为03099个样本,标记为3099个样本1,f1-score 0.5为两个类,加权平均值为0.5:

strategy_uniform

第二个例子,使用DummyClassifier(strategy='constant'),即每次猜测相同的标签,1在这种情况下每次猜测标签,f1-分数的平均值是0.33,而标签的f1 00.00:

strategy_constant

考虑到平衡数据集,我认为这些是差的f1分数.

PS.使用的摘要生成sklearn.metrics.classification_report

  • 总结一下你的答案,低于 0.5 的任何值都是不好的,对吧? (4认同)

sau*_*wal 5

您没有找到 f1 测量范围的任何参考,因为没有任何范围。F1 度量是精度和召回率的组合矩阵。

假设您有两种算法,一种具有更高的精度和更低的召回率。通过这种观察,您无法判断哪种算法更好,除非您的目标是最大限度地提高精度。

因此,鉴于如何在两个(一个具有较高召回率,另一个具有较高精度)中选择优级算法的这种模糊性,我们使用 f1-measure 在其中选择优级。

f1-measure 是一个相对术语,这就是为什么没有绝对范围来定义您的算法有多好。