我有一个有趣的问题,可以简化为这个简单的任务。考虑一个神经网络(LSTM 或其他网络),它将学习复制稀疏度约为 1% 的稀疏二进制矩阵。
如果我们查看仅猜测所有条目的 0 的成本函数,其稀疏度约为 100%,因此仅通过猜测全 0 即可获得非常高的准确度。
有没有办法通过改变稀疏矩阵表示或成本函数来使神经网络摆脱这个巨大的局部最小值?
谢谢!
sparse-matrix neural-network lstm
如何使用没有嵌入层的LSTM架构在keras中编写简单的序列复制任务?我已经有了vector这个词.
theano keras
keras ×1
lstm ×1
neural-network ×1
sparse-matrix ×1
theano ×1