深度神经网络跳过连接实现为求和vs连接？

Question

在深度神经网络中,我们可以实现跳过连接来帮助:

但是,我读了一些源代码,一些实现了跳过连接作为连接,一些作为求和.所以我的问题是每个实现的好处是什么？

Answer 1

基本上,差异取决于最终层受中间特征影响的不同方式.

使用逐元素求和(例如ResNet)的跳过连接的标准体系结构可以在某种程度上被视为迭代估计过程(参见例如这项工作),其中特征通过网络的各个层来细化.这种选择的主要好处在于它的工作原理并且是一种紧凑的解决方案(它可以在一个块中保持固定的功能数量).

具有级联跳过连接的架构(例如DenseNet)允许后续层重复使用中间表示,维护更多可以导致更好性能的信息.除了特征重用之外,另一个结果是隐式深度监督(如在这项工作中),它允许更好的跨网络梯度传播,特别是对于深度梯度传播(实际上它已被用于初始架构).

显然,如果没有正确设计,连接功能可以导致参数的指数增长(这部分解释了您指出的工作中使用的分层聚合),并且根据问题,使用大量信息可能导致过度拟合.