小编use*_*512的帖子

在Caffe中，我们有一个衰减率，通常设置为0.0005。然后，在将梯度应用于所有可训练参数（例如，FC6中的W矩阵）后，将衰减：W = W *（1- 0.0005）。

我经历了许多教程tensorflow代码，但看不到人们如何实现这种权重衰减以防止出现数值问题（绝对值很大）

根据我的经验，我经常在训练过程中遇到10万次迭代的数值问题。

我还在stackoverflow上遇到了相关问题，例如，如何在TensorFlow中设置重量成本强度？但是，该解决方案似乎与在Caffe中实现的有点不同。

有人有类似的担忧吗？谢谢。

5
推荐指数

1
解决办法

2万
查看次数

小编use_512的帖子