神经网络梯度下降中的反向传播与线性回归

Question

我试图理解“反向传播”，因为它在使用梯度下降优化的神经网络中使用。通读文献似乎可以做一些事情。

上述步骤似乎是解决线性模型（例如回归）的精确过程？Andrew Ng 在 Coursera 上关于机器学习的优秀课程正是针对线性回归进行的。

因此，我试图了解 BackPropagation 是否除了损失函数上的梯度下降之外还有其他作用。如果没有，为什么仅在神经网络的情况下引用它，而为什么不在 GLM（广义线性模型）中引用它。他们似乎都在做同样的事情——我可能会错过什么？

Answer 1

主要的划分恰好隐藏在显而易见的地方：线性。事实上，将问题扩展到一阶导数的连续性，您将概括大部分差异。

首先，请注意神经网络 (NN) 的一个基本原理：具有线性权重和线性依赖性的 NN是GLM。此外，具有多个隐藏层相当于单个隐藏层：它仍然是从输入到输出的线性组合。

“现代”神经网络具有非线性层：ReLU（将负值更改为 0）、池化（最大值、最小值或多个值的平均值）、dropout（随机删除一些值）和其他方法破坏了我们平滑应用的能力对模型进行梯度下降 (GD)。相反，我们采用许多原理并向后工作，逐层应用有限的修正，一直回到第 1 层的权重。

起泡沫，冲洗，重复直至收敛。

这能解决你的问题吗？

你说对了！

典型的 ReLU 是

f(x) = x if x > 0,
       0 otherwise

典型的池化层将输入的长度和宽度减少了 2 倍；在每个 2x2 正方形中，仅传递最大值。Dropout 只是消除随机值，使模型重新训练来自“主要来源”的权重。这些都让GD很头疼，所以我们必须一层一层地去做。