什么是糟糕,体面,优秀和出色的F1测量范围？

Question

我知道F1-measure是精确度和召回率的调和平均值.但是什么价值观定义了F1衡量标准的优劣？我似乎找不到任何引用(谷歌或学术)回答我的问题.

Answer 1

考虑sklearn.dummy.DummyClassifier(strategy='uniform')哪个是进行随机猜测的分类器(又称坏分类器).我们可以将DummyClassifier视为击败的基准,现在让我们看看它的f1得分.

在二元分类问题中,使用平衡数据集:总样本为6198,标记为03099个样本,标记为3099个样本1,f1-score 0.5为两个类,加权平均值为0.5:

第二个例子,使用DummyClassifier(strategy='constant'),即每次猜测相同的标签,1在这种情况下每次猜测标签,f1-分数的平均值是0.33,而标签的f1 0是0.00:

考虑到平衡数据集,我认为这些是差的f1分数.

PS.使用的摘要生成sklearn.metrics.classification_report

Answer 2

您没有找到 f1 测量范围的任何参考，因为没有任何范围。F1 度量是精度和召回率的组合矩阵。

假设您有两种算法，一种具有更高的精度和更低的召回率。通过这种观察，您无法判断哪种算法更好，除非您的目标是最大限度地提高精度。

因此，鉴于如何在两个（一个具有较高召回率，另一个具有较高精度）中选择优级算法的这种模糊性，我们使用 f1-measure 在其中选择优级。

f1-measure 是一个相对术语，这就是为什么没有绝对范围来定义您的算法有多好。