相关疑难解决方法(0)

随着批次大小的变化,学习率应如何变化?

当我增加/减少SGD中使用的微型批次的批次大小时,是否应该更改学习率?如果是这样,那又如何?

作为参考,我正在与某人讨论,有人说,当批量增加时,学习率应在一定程度上降低。

我的理解是,当我增加批次大小时,计算出的平均梯度会减少噪音,因此我可以保持相同的学习率或提高学习率。

另外,如果我使用自适应学习速率优化器,例如Adam或RMSProp,那么我想我可以保持学习速率不变。

请,如果我弄错了,请纠正我,并对此提供任何见解。

machine-learning deep-learning

12
推荐指数
3
解决办法
4539
查看次数

标签 统计

deep-learning ×1

machine-learning ×1