为什么在 ResNet 中残差连接后应用 ReLU?

She*_*ran 4 computer-vision deep-learning resnet

在 ResNet 架构中,为什么 ReLU 激活是在元素级加法之后和残差块中的残差应用的,而不是之前?

Tho*_*etz 7

因为是这样提出来的。在以下工作中对残差连接进行了调查:https : //arxiv.org/pdf/1603.05027.pdf 并且他们发现,Skip -> BN -> RELU -> Conv -> BN -> RELU -> Conv ->添加效果最好。

然而,性能差异可以忽略不计,因此原始 ResNet 公式占上风。不过,如果你想知道什么有效,什么无效,你可以阅读这篇论文。