为什么LeNet5使用32×32图像作为输入?

xia*_*fei 6 machine-learning deep-learning

我知道mnist数据集中的手写数字图像是28×28,但为什么LeNet5中的输入是32×32?

run*_*run 3

你的问题在原始论文中得到了回答:
卷积步骤总是采用比前一层的特征图更小的输入(这对于第一层 - 输入 - 也适用):

C1 层是一个具有 6 个特征图的卷积层。每个特征图中的每个单元都连接到输入中的 5x5 邻域。特征图的大小为 28x28,这可以防止输入的连接脱离边界。

这意味着在 32x32 输入上使用 5x5 邻域,您将获得 6 个大小为 28x28 的特征图,因为有些像素您不会在图像边界处使用(这些数字始终会有余数)。

当然,第一层可以有例外。他们仍然使用 32x32 图像的原因是:

输入是 32x32 像素图像。这明显大于数据库中的最大字符(在 28x28 字段中最多为 20x20 像素)。原因是希望潜在的独特特征(例如笔划端点或角点)能够出现在最高级别特征检测器的感受野的中心。