Tuy*_*ang 6 computer-vision deep-learning keras tensorflow
在深度神经网络中,我们可以实现跳过连接来帮助:
解决消失梯度问题,训练更快
网络学习低级和高级功能的组合
在下采样期间恢复信息丢失,如最大池.
https://medium.com/@mikeliao/deep-layer-aggregation-combining-layers-in-nn-architectures-2744d29cab8
但是,我读了一些源代码,一些实现了跳过连接作为连接,一些作为求和.所以我的问题是每个实现的好处是什么?
小智 15
基本上,差异取决于最终层受中间特征影响的不同方式.
使用逐元素求和(例如ResNet)的跳过连接的标准体系结构可以在某种程度上被视为迭代估计过程(参见例如这项工作),其中特征通过网络的各个层来细化.这种选择的主要好处在于它的工作原理并且是一种紧凑的解决方案(它可以在一个块中保持固定的功能数量).
具有级联跳过连接的架构(例如DenseNet)允许后续层重复使用中间表示,维护更多可以导致更好性能的信息.除了特征重用之外,另一个结果是隐式深度监督(如在这项工作中),它允许更好的跨网络梯度传播,特别是对于深度梯度传播(实际上它已被用于初始架构).
显然,如果没有正确设计,连接功能可以导致参数的指数增长(这部分解释了您指出的工作中使用的分层聚合),并且根据问题,使用大量信息可能导致过度拟合.