关于膨胀卷积与带填充的最大池化

And*_*ing 5 convolution image-segmentation deep-learning conv-neural-network

我一直在阅读论文,通过扩张卷积进行多尺度上下文聚合

在其中,他们建议使用扩张卷积来获得全局上下文,而不是最大池化/下采样,因为池化会缩小您的图像,而扩张卷积则不会。

我的第一个问题是:他们修改了 VGG16 并删除了最后两个最大池化层,但保留了其他 3 个最大池化层。为什么他们不删除所有最大池化层?计算效率?这不会导致图像变小吗?他们如何将其扩展回原始大小,双线性插值?

我的第二个问题是:他们在论文中指出:

“我们还删除了中间特征图的填充。原始分类网络中使用了中间填充,但在密集预测中既不必要也不合理。”

为什么会这样,如果你不填充,你会不会进一步减少我们最终输出的大小,特别是考虑到扩张卷积可以有非常大的感受野?

raj*_*jat 2

回答你的第一个问题,我认为你是正确的,输出是原始大小的 1/8,并且他们使用插值来上采样到原始大小。您可以在此处提供的源代码中找到证据。在文件test.py中,函数test_image,默认缩放设置为8(第103行)。更多证据可以在文件 train.py 中找到,其中默认缩放再次设置为 True,并且它们使用上采样层。

而且由于它们已经在减小尺寸,因此不需要使用填充来保持尺寸。我认为在他们的情况下不需要填充的原因是分割是密集预测的情况,因此从我们自己的角度引入一些像素在直观上没有意义。但争论同样问题的最佳方法是实际测试有或没有中间池的网络。