当我增加/减少SGD中使用的微型批次的批次大小时,是否应该更改学习率?如果是这样,那又如何?
作为参考,我正在与某人讨论,有人说,当批量增加时,学习率应在一定程度上降低。
我的理解是,当我增加批次大小时,计算出的平均梯度会减少噪音,因此我可以保持相同的学习率或提高学习率。
另外,如果我使用自适应学习速率优化器,例如Adam或RMSProp,那么我想我可以保持学习速率不变。
请,如果我弄错了,请纠正我,并对此提供任何见解。
machine-learning deep-learning
deep-learning ×1
machine-learning ×1