ConvNets上的接收字段(接收字段大小混乱)

Question

我正在从一篇论文中读到这篇文章:"我不是在第一个转换层中使用相对较大的感受域,而是在整个网络中使用非常小的3×3感知区域,这些区域与每个像素的输入进行卷积(步长为1)很容易看出,一堆两个3×3转换层(中间没有空间池)具有5×5的有效感受野;三个这样的层具有7×7有效感受野.

他们如何最终得到7x7的重复领域？

这就是我理解的方式:假设我们有一个100x100的图像.

第一层:对图像进行零填充并使用3x3滤镜对其进行控制,输出另一个100x100滤波图像.

第二层:对先前过滤的图像进行零填充,并将其与另一个3x3过滤器进行卷积,输出另一个100x100过滤后的图像.

第3层:对先前过滤的图像进行零填充,并将其与另一个3x3过滤器进行卷积,输出最终的100x100过滤图像.

我在那里错过了什么？

Answer 1

这是一种思考方式.考虑以下小图像,每个像素编号如下:

00 01 02 03 04 05 06
10 11 12 13 14 15 16
20 21 22 23 24 25 26
30 31 32 33 34 35 36
40 41 42 43 44 45 46
50 51 52 53 54 55 56
60 61 62 63 64 65 66

现在考虑位于中心的像素33.对于第一个3x3卷积,像素33处的生成值将包含像素22,23,24,32,33,34,42,43和44的值.但请注意,这些像素中的每一个也将包含其周围像素'价值观也是如此.

利用下一个3×3卷积,像素33将再次合并其周围像素的值,但是现在,这些像素的值包含来自原始图像的周围像素.实际上,这意味着像素33的值由达到5x5"平方影响"的值来控制.

每个额外的3x3卷积具有通过每个方向上的另一个像素拉伸有效感受野的效果.

我希望这不会让它更令人困惑......