Seg*_*guy 5 machine-learning backpropagation neural-network
我应该避免将 L2 正则化与 RMSprop 和 NAG 结合使用吗?
L2 正则化项干扰梯度算法(RMSprop)?
最好的问候,
好像有人整理了(2018)题(2017)。
Vanilla 自适应梯度(RMSProp、Adagrad、Adam 等)与 L2 正则化不太匹配。
链接到论文 [ https://arxiv.org/pdf/1711.05101.pdf]和一些介绍:
在本文中,我们展示了最流行的自适应梯度方法 Adam 泛化性差的一个主要因素是由于 L2 正则化对其效果不如 SGD。
L2 正则化和权重衰减并不相同。与普遍看法相反,这两种技术并不等效。对于 SGD,它们可以通过基于学习率的权重衰减因子的重新参数化而变得等效;亚当的情况并非如此。特别是,当与自适应梯度相结合时,L2 正则化导致具有大梯度的权重比使用权重衰减时被正则化的要少。
| 归档时间: |
|
| 查看次数: |
1514 次 |
| 最近记录: |