快速R-CNN中ROI层的目的是什么?

Sha*_*ana 22 object-detection computer-vision deep-learning conv-neural-network

教程中关于对象检测,提到了快速R-CNN.还提到了ROI(感兴趣区域)层.

在数学上,当根据最终卷积层激活函数(在每个单元格中)调整区域提议的大小时,会发生什么?

kma*_*o23 22

感兴趣区域(RoI)池:

它是一种池化层,它对非均匀尺寸的输入(此处为回旋特征图)执行最大池化,并生成固定大小的小特征图(例如7x7).此固定大小的选择是网络超参数并且是预定义的.

进行这种汇集的主要目的是加快培训和测试时间,并从端到端(以联合方式)培训整个系统.

这是因为使用这个汇集层,与原始(vanilla?)R-CNN架构相比,训练和测试时间更快,因此名称为Fast R-CNN.

简单示例(来自deepsense.io解释的感兴趣区域池):

RoI Pooling的可视化


Ngh*_*ran 14

快速R-CNN中引入ROI(感兴趣区域)层,并且是空间金字塔池化层的一种特殊情况,其引入用于视觉识别的深度卷积网络中的空间金字塔池.由于完全连接层中的大小约束,ROI层的主要功能是将具有任意大小的整形输入转换为固定长度输出.

ROI层的工作原理如下所示:

在此输入图像描述

在此图像中,任意大小的输入图像被送入该层,该层具有3个不同的窗口:4x4(蓝色),2x2(绿色),1x1(灰色),以产生固定大小为16 x F,4 x F的输出,和1 x F,其中F是滤波器的数量.然后,将这些输出连接成矢量以馈送到完全连接层.

  • "大小约束"是指输入图像的维度.例如,LeNet-5只能拍摄32x32图像,因此您可以在不调整大小的情况下将64x64或64x32图像输入其中,这最终会导致转换丢失.该约束是由于第一个完全连接的层"需要通过其定义具有固定的大小/长度输入". (2认同)