小编use*_*268的帖子

有没有办法在张量流中剪切中间爆炸梯度

问题:一个很长的RNN网

N1 -- N2 -- ... --- N100
Run Code Online (Sandbox Code Playgroud)

对于类似的优化器AdamOptimizer,compute_gradient()将为所有训练变量提供渐变.

但是,它可能会在某个步骤中爆炸.

类似于如何有效地应用梯度剪切张量流的方法 可以剪切大的最终梯度.

但是如何剪辑那些中级的呢?

一种方法可能是从"N100 - > N99"手动执行backprop,剪辑渐变,然后是"N99 - > N98"等等,但这太复杂了.

所以我的问题是:是否有更简单的方法来剪辑中间渐变?(当然,严格来说,它们不再是数学意义上的渐变)

adam gradient clipping deep-learning tensorflow

6
推荐指数
1
解决办法
618
查看次数

标签 统计

adam ×1

clipping ×1

deep-learning ×1

gradient ×1

tensorflow ×1