Hak*_*ata 5 machine-learning linear-regression backpropagation neural-network gradient-descent
我试图理解“反向传播”,因为它在使用梯度下降优化的神经网络中使用。通读文献似乎可以做一些事情。
上述步骤似乎是解决线性模型(例如回归)的精确过程?Andrew Ng 在 Coursera 上关于机器学习的优秀课程正是针对线性回归进行的。
因此,我试图了解 BackPropagation 是否除了损失函数上的梯度下降之外还有其他作用。如果没有,为什么仅在神经网络的情况下引用它,而为什么不在 GLM(广义线性模型)中引用它。他们似乎都在做同样的事情——我可能会错过什么?
主要的划分恰好隐藏在显而易见的地方:线性。事实上,将问题扩展到一阶导数的连续性,您将概括大部分差异。
首先,请注意神经网络 (NN) 的一个基本原理:具有线性权重和线性依赖性的 NN是GLM。此外,具有多个隐藏层相当于单个隐藏层:它仍然是从输入到输出的线性组合。
“现代”神经网络具有非线性层:ReLU(将负值更改为 0)、池化(最大值、最小值或多个值的平均值)、dropout(随机删除一些值)和其他方法破坏了我们平滑应用的能力对模型进行梯度下降 (GD)。相反,我们采用许多原理并向后工作,逐层应用有限的修正,一直回到第 1 层的权重。
起泡沫,冲洗,重复直至收敛。
这能解决你的问题吗?
你说对了!
典型的 ReLU 是
f(x) = x if x > 0,
0 otherwise
Run Code Online (Sandbox Code Playgroud)
典型的池化层将输入的长度和宽度减少了 2 倍;在每个 2x2 正方形中,仅传递最大值。Dropout 只是消除随机值,使模型重新训练来自“主要来源”的权重。这些都让GD很头疼,所以我们必须一层一层地去做。
归档时间: |
|
查看次数: |
2895 次 |
最近记录: |