我认为 Adam 优化器的设计是为了自动调整学习率。但是在 Keras 中的 Adam 参数选项中有一个选项可以明确提及衰减。我想澄清衰减对 Keras 中 Adam 优化器的影响。如果我们在 lr = 0.001 上使用衰减说 0.01 来编译模型,然后拟合运行 50 个 epoch 的模型,那么在每个 epoch 之后学习率是否会降低 0.01 倍?
有什么方法可以指定学习率只有在运行一定数量的 epoch 后才衰减?
在 pytorch 中有一个名为 AdamW 的不同实现,它在标准 keras 库中不存在。这与如上所述在每个时期之后改变衰减相同吗?
预先感谢您的回复。