Sum*_*ith 4 artificial-intelligence machine-learning neural-network deep-learning activation-function
这里有隐藏的陷阱吗?即使是流行的ReLU也是max(0,x),我们将允许最大值传递并将负数剪辑为零.如果我们同时允许正值和负值,会出现什么问题?或者为什么我们在ReLU中将负值剪切为零.
Max*_*xim 6
连续层意味着功能意义上的叠加:
x -> L1(x) -> L2(L1(x)) -> ...
对于输入x它产生L2(L1(x))或的组合物L1和L2.
x
L2(L1(x))
L1
L2
两个线性层的组成实际上是一个大的线性层,这不会使模型更好.应用于图层的任何非线性,即使是像ReLu一样简单,也会分割空间,从而可以学习复杂的函数.您可以在图片上看到4 ReLu的效果:
当然,输出层中只能有一个非线性.但这基本上意味着最简单的神经网络,具有一个隐藏层和一个激活功能.确实,它可以近似任何函数,但在隐藏层中使用指数级的多个神经元.通过向网络添加深度,您可以获得非常复杂的表示,并且具有相对较少的神经元.这是深度学习发挥作用的地方.
归档时间:
8 年,1 月 前
查看次数:
1013 次
最近记录:
8 年 前