相关疑难解决方法(0)

随着批次大小的变化，学习率应如何变化？

当我增加/减少SGD中使用的微型批次的批次大小时，是否应该更改学习率？如果是这样，那又如何？

作为参考，我正在与某人讨论，有人说，当批量增加时，学习率应在一定程度上降低。

我的理解是，当我增加批次大小时，计算出的平均梯度会减少噪音，因此我可以保持相同的学习率或提高学习率。

另外，如果我使用自适应学习速率优化器，例如Adam或RMSProp，那么我想我可以保持学习速率不变。

请，如果我弄错了，请纠正我，并对此提供任何见解。

machine-learning deep-learning

12
推荐指数

3
解决办法

4539
查看次数

标签统计

deep-learning ×1

machine-learning ×1