为什么在 CNN 的后期步骤中通常有多个全连接层?

Ali*_*Ali 7 machine-learning image-processing computer-vision deep-learning conv-neural-network

正如我所注意到的,在许多流行的卷积神经网络架构(例如 AlexNet)中,人们使用多个具有几乎相同维度的全连接层来收集对早期层中先前检测到的特征的响应。

为什么我们不只使用一个 FC 来实现这一点呢?为什么这种全连接层的分层排列可能更有用?

在此输入图像描述

yur*_*ura 1

实际上它不再流行/正常。2015+网络(例如Resnet、Inception 4)使用全局平均池化(GAP)作为最后一层+softmax,它提供相同的性能和更小的模型。VGG16 中的最后 2 层约占网络所有参数的 80%。但为了回答你的问题,通常使用 2 层 MLP 进行分类,并将网络的其余部分视为特征生成。1 层是具有全局最小值和简单属性的普通逻辑回归,2 层对于非线性和 SGD 的使用提供了一些用处。