神经网络:为什么我们需要激活功能？

Question

我尝试运行一个没有任何激活功能的简单神经网络,并且网络不会收敛.我正在使用MSE成本函数进行MNIST分类.

但是,如果我将整流线性激活函数应用于隐藏层(输出= max(0,x),其中x是加权和),则它会收敛.

为什么要消除前一层的负面输出有助于学习？

Answer 1

线性与非线性

基本感知器仅仅是其输入信号的加权线性组合.一层感知器仍然是线性回归器/分类器.如果我们使函数逼近器(神经网络)非线性化,网络将只能解决非线性问题.这可以通过在层的输出信号上应用非线性激活函数来完成,例如ReLU函数.

当输出信号正好时,ReLU是一个非线性激活函数max(0, y)怎么样？答案在于抵消负值(用0替换它们).由于无法用直线描述ReLU功能曲线,因此ReLU不是线性激活功能.