在Keras有Adam优化器的动量选项吗?

Tua*_* Do 1 optimization machine-learning neural-network deep-learning keras

问题就是这一切.由于Adam在大多数数据集中表现良好,我想尝试动态调整Adam优化器.到目前为止,我只在Keras找到SGD的动量选项

des*_*aut 7

简短的回答:没有,无论是在Keras也不Tensorflow [编辑:见UPDATE末]

答案很长:正如评论中已经提到的,亚当已经融入了一些动力.以下是一些相关的佐证:

从强烈推荐的梯度下降优化算法概述(也可作为论文):

除了存储过去平方梯度的指数衰减平均值u [t]如Adadelta和RMSprop之外,Adam还保持过去梯度m [t]的指数衰减平均值,类似于动量

来自Stanford CS231n:用于视觉识别的CNN:

Adam是最近提出的更新,看起来有点像RMSProp的动力

请注意,某些框架实际上包含momentumAdam 的参数,但这实际上是beta1参数; 这是CNTK:

动量(浮动,列表,输出momentum_schedule()) - 动量计划.请注意,这是Adam文件中的beta1参数.有关其他信息,请参阅此CNTK Wiki文章.

也就是说,有一篇题为"将Nesterov动力纳入亚当"的ICLR 2016论文,以及作者在Tensorflow中的实施框架 - 但不能对此提出任何意见.

更新(在下面的Yu-Yang评论之后):Nadam根据上面提到的ICLR 2016论文,Keras 确实包括了一个名为的优化器; 来自文档:

就像亚当基本上是具有动力的RMSprop一样,Nadam就是具有Nesterov势头的Adam RMSprop.

它也作为贡献模块包含在Tensorflow中NadamOptimizer.