训练神经网络时哪些层应该经历“dropout”?

Set*_*dge 5 neural-network

我有这个带有ReLU 隐藏层激活和Sigmoid 输出层激活的多层网络。我想实现dropout(每个神经元都有机会在训练期间只输出零)。

我想我可以在训练期间将这种噪声作为 ReLU 激活例程的一部分引入并完成它,但我不确定原则上dropout 是否扩展到可见/输出层。


(在我看来,dropout 消除了过拟合,因为它有效地使网络成为许多较小网络的平均值。我只是不确定输出层)

Mar*_*jko 6

是的,你是对的 - 你不应该将dropout应用于输出层。直观地说,引入此类噪声会使网络的输出很可能独立于网络的结构。无论在隐藏层中进行何种计算 - 某些概率输出可能与它们无关。这与建模的哲学完全相反。