And*_*gon 2 object-detection computer-vision conv-neural-network yolo faster-rcnn
我正在比较用于海上搜救 (SAR) 目的的物体检测模型。从我使用的模型中,我得到了改进版 YOLOv3 的最佳结果,用于小物体检测和 FASTER RCNN。
对于 YOLOv3,我得到了最好的 mAP@50,但是对于 FASTER RCNN,我得到了更好的所有其他指标(精度、召回率、F1 分数)。现在我想知道如何阅读它以及在这种情况下哪个模型真的更好?
我想补充一点,数据集中只有两个类:小对象和大对象。我们选择这个解决方案是因为对我们来说,对象在类别之间的区别不像检测任何人类来源的对象那么重要。
然而,小的物体并不意味着小的 GT 边界框。这些是实际面积很小的物体 - 小于 2 平方米(例如人、浮标)。大物体是面积较大的物体(小船、轮船、独木舟等)。
以下是每个类别的结果:
对象检测的 mAP 是为所有类计算的 AP 的平均值。mAP@0.5 表示是在 IOU 阈值 0.5 下计算的 mAP。
平均精度 (AP) 的一般定义是找到精度-召回曲线下的面积。
绘制模型的精度和召回率作为模型置信阈值的函数的过程是精度召回曲线。
精度衡量您的预测的准确程度。即您的预测正确的百分比。召回衡量您发现所有积极因素的程度。F1 分数是准确率和召回率的 HM(谐波均值)。
现在回答你的问题。
如何阅读它以及在这种情况下哪个模型真的更好?
什么指标应该更重要?
一般来说,为了分析性能更好的模型,我建议您使用验证集(用于调整超参数的数据集)和测试集(用于评估完全训练模型性能的数据集)。
注:FP - 假阳性 FN - 假阴性
在验证集上:
使用mAP从迭代/时期的所有训练权重中选择性能最佳的模型(更稳定和一致的模型)。使用mAP了解是否应该进一步训练/调整模型。
检查类级别的 AP 值以确保模型在各个类中稳定且良好。
根据用例/应用程序,如果您完全容忍 FN 并且对 FP 高度不容忍,那么相应地使用Precision训练/调整模型。
根据用例/应用程序,如果您完全容忍 FP 并且对 FN 高度不容忍,那么相应地使用Recall训练/调整模型。
在测试集上:
如果您对 FP 和 FN 持中立态度,则使用F1 分数来评估最佳性能模型。
如果您不接受 FP(不太关心 FN),请选择精度更高的模型
如果您不接受 FN(不太关心 FP),请选择召回率较高的模型
一旦你决定了你应该使用的指标,就为给定的模型尝试多个置信阈值(例如 - 0.25、0.35 和 0.5),以了解您选择的指标对哪个置信阈值有利,并了解可接受的权衡范围(假设您想要至少 80% 的精度和一些不错的召回率)。一旦确定了置信阈值,您就可以在不同的模型中使用它来找出性能最佳的模型。
| 归档时间: |
|
| 查看次数: |
2915 次 |
| 最近记录: |