这更像是一个深度学习概念问题,如果这不是正确的平台,我会把它带到其他地方.
我正在尝试使用Keras LSTM序列模型来学习文本序列并将它们映射到数值(回归问题).
问题是,学习总是在高损失(训练和测试)上收敛得太快.我已经尝试了所有可能的超参数,我感觉这是一个局部最小问题导致模型的高偏差.
我的问题基本上是:
输入和输出用minmax标准化.
我正在使用具有动量的SGD,目前有3个LSTM层(126,256,128)和2个密集层(200和1个输出神经元)
我已经在几个时期之后打印了重量,并注意到许多权重为零,其余的基本上具有值1(或非常接近它).