yolo算法的坐标输出代表什么?

Sak*_*ham 4 machine-learning computer-vision deep-learning conv-neural-network yolo

我的问题类似于\xc2\xa0this\xc2\xa0topic。当我开始思考 yolo 算法的输出时,我正在观看 Andrew Ng 关于边界框预测的\xc2\xa0this\xc2\xa0lecture。让我们考虑这个例子,我们使用 19x19 网格和只有一个具有 2 个类的感受野,所以我们的输出将是 => 19x19x1x5。最后一个维度(大小为 5 的数组)表示以下内容:

\n\n
1) The class (0 or 1)  \n2) X-coordinate  \n3) Y-coordinate  \n4) height of the bounding box  \n5) Width of the bounding box\n
Run Code Online (Sandbox Code Playgroud)\n\n

我不明白 X,Y 坐标是否代表相对于整个图像大小的边界框或仅代表感受野(滤波器)。在视频中,边界框被表示为感受野的一部分,但逻辑上感受野比边界框小得多,而且人们可能会修改过滤器的大小,因此相对于过滤器定位边界框是没有意义的。

\n\n

那么,图像边界框的坐标基本上代表什么?

\n

des*_*aut 6

来自理解 YOLO帖子@Hacker Noon:

\n
\n

每个网格单元预测 B 个边界框以及 C 类概率。边界框预测有 5 个组成部分:(x, y, w,\nh,confidence)。( x, y)坐标表示框的中心,\n相对于网格单元位置(请记住,如果框的中心\n落在网格单元内,则该单元\n不负责它) 。这些坐标被标准化为介于 0 和 1 之间。(w, h)框尺寸也被标准化为 [0, 1],\n相对于图像大小。让\xe2\x80\x99s看一个例子:

\n

在此输入图像描述

\n
\n