小编Yug*_*'yu的帖子

反向传播算法如何处理不可微分的激活函数?

在深入研究神经网络的主题以及如何有效地训练神经网络时,我遇到了使用非常简单的激活函数的方法,例如重新设计的线性单元(ReLU),而不是经典的平滑sigmoids.ReLU函数在原点是不可微分的,因此根据我的理解,反向传播算法(BPA)不适合用ReLU训练神经网络,因为多变量微积分的链规则仅指平滑函数.但是,没有关于使用我读过的ReLU的论文解决了这个问题.ReLUs似乎非常有效,似乎几乎无处不在,但不会引起任何意外行为.有人可以向我解释为什么ReLUs可以通过反向传播算法进行训练吗?

machine-learning backpropagation neural-network deep-learning

22
推荐指数
1
解决办法
5333
查看次数