我正在创建神经网络,目前主要是关注D. Kriesel的教程.一开始,它引入了至少三个(不同的?)学习规则(Hebbian,delta规则,反向传播),涉及监督学习.
我可能会遗漏一些东西,但如果目标只是为了最大限度地减少错误,为什么不只是应用梯度下降Error(entire_set_of_weights)?
编辑:我必须承认答案仍然让我困惑.如果可以指出这些方法之间的实际差异,以及它们与直线梯度下降之间的差异,将会很有帮助.
为了强调它,这些学习规则似乎考虑了网络的分层结构.另一方面,找到Error(W)整组权重的最小值完全忽略它.这怎么样?