快速RCNN-ROI预测

Kon*_*ong 5 deep-learning

在快速RCNN方法中,原始图像中的区域提议被投影到最终卷积特征图的输出上。对于VGG网络,输入图像的大小为224 x 244,卷积特征图的最终输出为14 x 14 x 512。

这是否意味着将输入图像上的建议投影到功能图上以进行ROI合并?投影是边界框的简单缩放吗?

小智 0

本文很好地描述了 RoI 池化以及如何从原始标签获得特征图的 RoI BB 等效项。

\n

https://medium.com/datadriveninvestor/review-on-fast-rcnn-202c9eadd23b

\n

基本上,RoI 池化的目标是从 CNN 输出特征图的任意大小部分输出固定大小的特征图。

\n

为此,您必须进行 RoI 投影,将 RoI BB (x,y,h,w) 从原始图像转换为特征图中所需的 RoI BB。这是通过根据子采样率对其进行缩放来完成的。

\n

前任。)

\n
    \n
  • 如果你的图像是 18x18 并且你的特征图是 3x3 那么你的子采样比率是 3/18。
  • \n
  • 要获得预计的 RoI BB,请将其乘以原始 BB 值,例如 x\' = (3/18)x
  • \n
\n

然后,您只需在特征图的该部分上进行池化,使用 H\xc3\x97W 个大小为 ~h\'/H\xc3\x97w\'/W 的池化窗口,其中 H 和 W 是高度和宽度池化层的目标输出。

\n

这篇文章给出了更好的描述,我鼓励您查看它和原始论文!

\n