我知道可以使用梯度下降训练神经网络,并且我了解它是如何工作的。
最近,我偶然发现了其他训练算法:共轭梯度和拟牛顿算法。我试图了解它们是如何工作的,但我能得到的唯一好的直觉是它们使用了高阶导数。
我的问题如下:我提到的那些替代算法与使用损失函数梯度调整权重的反向传播过程有根本的不同吗?如果没有,是否有一种算法可以训练一个与反向传播机制根本不同的神经网络?
谢谢
backpropagation neural-network gradient-descent
backpropagation ×1
gradient-descent ×1
neural-network ×1