CNN:为什么我们首先将图像大小调整为 256,然后将裁剪中心裁剪为 224?

2 conv-neural-network pytorch

Alexnet图像输入的转换如下:

transforms.Resize(256),
transforms.CenterCrop(224),
Run Code Online (Sandbox Code Playgroud)

为什么我们首先将图像大小调整为 256,然后将其居中裁剪为 224?我知道 ImageNet 的默认图像大小是 224x224,但是为什么我们不能直接将图像大小调整为 224x224?

Car*_*iel 9

也许这是最好的视觉说明。考虑以下图像 (128x128px):

在此输入图像描述

假设我们直接将其大小调整为 16x16px,最终会得到:

在此输入图像描述

但如果我们先将其大小调整为 24x24px,

在此输入图像描述

然后将其裁剪为 16x16px,它看起来像这样:

在此输入图像描述

如您所见,它消除了边框,同时保留了中心的细节。请注意并排的差异:在此输入图像描述 在此输入图像描述

这同样适用于 224px 与 256px,只不过分辨率更高。