小编use*_*934的帖子

我有一个有趣的问题，可以简化为这个简单的任务。考虑一个神经网络（LSTM 或其他网络），它将学习复制稀疏度约为 1% 的稀疏二进制矩阵。

如果我们查看仅猜测所有条目的 0 的成本函数，其稀疏度约为 100%，因此仅通过猜测全 0 即可获得非常高的准确度。

有没有办法通过改变稀疏矩阵表示或成本函数来使神经网络摆脱这个巨大的局部最小值？

谢谢！

5
推荐指数

1
解决办法

2457
查看次数

如何使用没有嵌入层的LSTM架构在keras中编写简单的序列复制任务？我已经有了vector这个词.

5
推荐指数

1
解决办法

3246
查看次数

小编use_934的帖子