为什么faster-rcnn端到端训练只做近似?

ale*_*.tu 6 image-processing object-detection deep-learning

在更快的 rcnn ( https://arxiv.org/abs/1506.01497 ) 中,

有两种方法可以训练网络。

一种方法是联合训练 rpn 和 fast rcnn。

另一种方法是以端到端的方式训练 rpn 和 fast rcnn。

但是作者表示,在端到端的训练中,结果只是近似于联合训练。

仅近似的原因是

该解决方案忽略了提案框坐标的导数,这些坐标也是网络响应,因此是近似的。

但是,根据网络定义(https://github.com/rbgirshick/py-faster-rcnn/blob/master/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt),rpn的边界框回归为每个更新训练迭代,所以它不会被忽略。

那么,为什么它忽略了提案框坐标的导数?这意味着什么?

Col*_*ang 1

幻灯片“训练不同速度的 R-CNN”在第 40-45 页详细讨论了这一点。简而言之,这是因为损失函数对 ROI 层的导数是未定义的,因此使用了代理梯度,在这种情况下,该导数是未定义的。

聚苯乙烯

ICCV 2015 教程链接

Github README 页面引导我观看幻灯片