是出于某种原因还是出于计算限制,224x224会提供更好的精度?我认为较大的图片应具有更好的准确性,不是吗?
更大的图像包含更多相关或不相关的信息。输入的大小很重要,因为输入越大,网络需要处理的参数就越多。更多的参数可能会导致几个问题,首先你需要更多的计算能力。然后你可能需要更多的数据来训练,因为很多参数和没有足够的样本可能会导致过度拟合,特别是对于 CNN。选择来自 AlexNet 的 224 也允许他们应用一些数据增强。
例如,如果您有一张 512x512 的图像并且您想识别那里的对象,最好将其重新采样为 256x256 并获得 224x224 或 200x200 的较小块,进行一些数据增强,然后进行训练。您还可以使用 400x400 的补丁,并进行数据扩充和训练,前提是您有足够的数据。
不要忘记进行交叉验证,以便您可以检查是否存在过度拟合。