为什么在对象检测中使用带卷积神经网络的滑动窗口?

Boo*_*ley 5 machine-learning object-detection computer-vision neural-network conv-neural-network

我读到CNN(具有卷积和最大池化层)是移位不变的,但是大多数物体检测方法使用具有非最大抑制的滑动窗口检测器.在进行物体检测时是否有必要使用带CNN的滑动窗口?

基本上,不是在包含所需对象的50x50小图片上训练网络,为什么不训练对象存在于某处的整个图像?所有我能想到的是实际/性能原因(向前传递较小的补丁而不是整个图像),但是还有一个我忽略的理论解释吗?

lej*_*lot 6

在内部,CNN 正在做一个滑动窗口.就2D图像而言的卷积仅仅是以滑动窗口方式应用的线性滤波器.这是完全相同的操作的简单,数学表达,这有助于我们进行整洁的优化.另一方面,最大池化有助于我们在小班次/噪音方面保持稳健.因此,有效地将图像输送到网络正在使用(许多!)滑动窗口.我们可以传递大图像而不是小图像吗?当然,但你会得到非常大的张量(只计算你需要多少个数字,这是巨大的),你会得到非常复杂的优化问题.如今我们在数百万维空间中进行优化.处理整个图像可能会导致尺寸(甚至更大)的尺寸.优化复杂度随着维度的增长而呈指数增长,因此最终会得到极慢的方法(不是计算本身 - 而是收敛).