在Caffe中,我们有一个衰减率,通常设置为0.0005。然后,在将梯度应用于所有可训练参数(例如,FC6中的W矩阵)后,将衰减:W = W *(1- 0.0005)。
我经历了许多教程tensorflow代码,但看不到人们如何实现这种权重衰减以防止出现数值问题(绝对值很大)
根据我的经验,我经常在训练过程中遇到10万次迭代的数值问题。
我还在stackoverflow上遇到了相关问题,例如, 如何在TensorFlow中设置重量成本强度? 但是,该解决方案似乎与在Caffe中实现的有点不同。
有人有类似的担忧吗?谢谢。