Tua*_* Do 1 optimization machine-learning neural-network deep-learning keras
问题就是这一切.由于Adam在大多数数据集中表现良好,我想尝试动态调整Adam优化器.到目前为止,我只在Keras找到SGD的动量选项
简短的回答:没有,无论是在Keras也不Tensorflow [编辑:见UPDATE末]
答案很长:正如评论中已经提到的,亚当已经融入了一些动力.以下是一些相关的佐证:
从强烈推荐的梯度下降优化算法概述(也可作为论文):
除了存储过去平方梯度的指数衰减平均值u [t]如Adadelta和RMSprop之外,Adam还保持过去梯度m [t]的指数衰减平均值,类似于动量
Adam是最近提出的更新,看起来有点像RMSProp的动力
请注意,某些框架实际上包含momentumAdam 的参数,但这实际上是beta1参数; 这是CNTK:
动量(浮动,列表,输出
momentum_schedule()) - 动量计划.请注意,这是Adam文件中的beta1参数.有关其他信息,请参阅此CNTK Wiki文章.
也就是说,有一篇题为"将Nesterov动力纳入亚当"的ICLR 2016论文,以及作者在Tensorflow中的实施框架 - 但不能对此提出任何意见.
更新(在下面的Yu-Yang评论之后):Nadam根据上面提到的ICLR 2016论文,Keras 确实包括了一个名为的优化器; 来自文档:
就像亚当基本上是具有动力的RMSprop一样,Nadam就是具有Nesterov势头的Adam RMSprop.
它也作为贡献模块包含在Tensorflow中NadamOptimizer.
| 归档时间: |
|
| 查看次数: |
5639 次 |
| 最近记录: |