我正在从一篇论文中读到这篇文章:"我不是在第一个转换层中使用相对较大的感受域,而是在整个网络中使用非常小的3×3感知区域,这些区域与每个像素的输入进行卷积(步长为1)很容易看出,一堆两个3×3转换层(中间没有空间池)具有5×5的有效感受野;三个这样的层具有7×7有效感受野.
他们如何最终得到7x7的重复领域?
这就是我理解的方式:假设我们有一个100x100的图像.
第一层:对图像进行零填充并使用3x3滤镜对其进行控制,输出另一个100x100滤波图像.
第二层:对先前过滤的图像进行零填充,并将其与另一个3x3过滤器进行卷积,输出另一个100x100过滤后的图像.
第3层:对先前过滤的图像进行零填充,并将其与另一个3x3过滤器进行卷积,输出最终的100x100过滤图像.
我在那里错过了什么?
machine-learning computer-vision neural-network deep-learning conv-neural-network