如果我们不将激活应用于隐藏层并仅应用于前馈神经网络的输出层,该怎么办？

Question

这里有隐藏的陷阱吗？即使是流行的ReLU也是max(0,x),我们将允许最大值传递并将负数剪辑为零.如果我们同时允许正值和负值,会出现什么问题？或者为什么我们在ReLU中将负值剪切为零.

Answer 1

连续层意味着功能意义上的叠加:

x -> L1(x) -> L2(L1(x)) -> ...

对于输入x它产生L2(L1(x))或的组合物L1和L2.

两个线性层的组成实际上是一个大的线性层,这不会使模型更好.应用于图层的任何非线性,即使是像ReLu一样简单,也会分割空间,从而可以学习复杂的函数.您可以在图片上看到4 ReLu的效果:

当然,输出层中只能有一个非线性.但这基本上意味着最简单的神经网络,具有一个隐藏层和一个激活功能.确实,它可以近似任何函数,但在隐藏层中使用指数级的多个神经元.通过向网络添加深度,您可以获得非常复杂的表示,并且具有相对较少的神经元.这是深度学习发挥作用的地方.