CNN：为什么我们首先将图像大小调整为 256，然后将裁剪中心裁剪为 224？

Question

Alexnet图像输入的转换如下：

transforms.Resize(256),
transforms.CenterCrop(224),

为什么我们首先将图像大小调整为 256，然后将其居中裁剪为 224？我知道 ImageNet 的默认图像大小是 224x224，但是为什么我们不能直接将图像大小调整为 224x224？

Answer 1

也许这是最好的视觉说明。考虑以下图像 (128x128px)：

假设我们直接将其大小调整为 16x16px，最终会得到：

但如果我们先将其大小调整为 24x24px，

然后将其裁剪为 16x16px，它看起来像这样：

如您所见，它消除了边框，同时保留了中心的细节。请注意并排的差异：

这同样适用于 224px 与 256px，只不过分辨率更高。