Kub*_*888 15 precision performance measurement machine-learning precision-recall
我知道F1-measure是精确度和召回率的调和平均值.但是什么价值观定义了F1衡量标准的优劣?我似乎找不到任何引用(谷歌或学术)回答我的问题.
Sid*_*hou 12
考虑sklearn.dummy.DummyClassifier(strategy='uniform')哪个是进行随机猜测的分类器(又称坏分类器).我们可以将DummyClassifier视为击败的基准,现在让我们看看它的f1得分.
在二元分类问题中,使用平衡数据集:总样本为6198,标记为03099个样本,标记为3099个样本1,f1-score 0.5为两个类,加权平均值为0.5:
第二个例子,使用DummyClassifier(strategy='constant'),即每次猜测相同的标签,1在这种情况下每次猜测标签,f1-分数的平均值是0.33,而标签的f1 0是0.00:
考虑到平衡数据集,我认为这些是差的f1分数.
PS.使用的摘要生成sklearn.metrics.classification_report
您没有找到 f1 测量范围的任何参考,因为没有任何范围。F1 度量是精度和召回率的组合矩阵。
假设您有两种算法,一种具有更高的精度和更低的召回率。通过这种观察,您无法判断哪种算法更好,除非您的目标是最大限度地提高精度。
因此,鉴于如何在两个(一个具有较高召回率,另一个具有较高精度)中选择优级算法的这种模糊性,我们使用 f1-measure 在其中选择优级。
f1-measure 是一个相对术语,这就是为什么没有绝对范围来定义您的算法有多好。
| 归档时间: | 
 | 
| 查看次数: | 17242 次 | 
| 最近记录: |