为什么缩放数据在神经网络(LSTM)中非常重要

Question

我正在撰写关于如何在时间序列中应用LSTM神经网络的硕士论文.在我的实验中,我发现缩放数据会对结果产生很大影响.例如,当我使用tanh激活函数,并且值范围介于-1和1之间时,模型似乎收敛得更快,并且验证错误也不会在每个纪元后显着跳跃.

有谁知道有什么数学解释吗？或者有没有文件已经解释过这种情况？

Answer 1

你的问题让我想起了我们课堂上使用过的一张照片,但你可以在3点02分找到类似的照片.

在上图中,您可以清楚地看到左侧的路径比右侧的路径长得多.缩放应用于左侧以成为正确的缩放.