对Yolo感到困惑

Adr*_*oli 5 object-recognition deep-learning yolo

我对 Yolo 的工作方式有点困惑。他们在论文中说:

“置信度预测代表预测框与任何地面实况框之间的 IOU。”

但是我们如何获得地面真相框呢?假设我在未标记的图像上使用我的 Yolo 网络(已经训练过)。那我的信心是什么?

抱歉,如果问题很简单,但我真的不明白这部分......谢谢!

小智 3

但是我们如何获得地面真相框呢?

您似乎对训练数据到底是什么以及 YOLO 的输出或预测是什么感到困惑。

训练数据是一个带有类标签的边界框。这被称为“地面实况框”,b = [bx, by, bh, bw, class_name (or number)]其中bx, by是带注释的边界框的中点,bh, bw是框的高度和宽度。

输出或预测是图像的边界框b和类别。形式上:哪里是注释边界框的中点。是 box 的高度和宽度,并且- 'box' 中具有类的概率。ciy = [ pl, bx, by, bh, bw, cn ]bx, bybh, bwpccb

假设我在未标记的图像上使用我的 Yolo 网络(已经训练过)。那我的信心是什么?

当您说您有一个预先训练的模型(您指的是已经训练过的)时,您的网络已经“知道”某些对象类的边界框,并且它尝试近似该对象在新图像中的位置,但在这样做时您的网络可能会在其他地方预测边界框而不是它应该在的地方。那么你如何计算“其他地方”的盒子多少钱呢?借条来救援!IOU(并集交集)的作用是,它为您提供重叠面积与并集面积的分数。

IOU = Area of Overlap / Area of Union
Run Code Online (Sandbox Code Playgroud)

虽然它很少是完美的或 1。它有点接近,IOU 的值越小,YOLO 参考地面实况预测边界框的效果就越差。IOU 分数为 1 意味着参考地面实况准确或非常自信地预测了边界框。