Q学习代理的学习率

Question

问题学习率如何影响收敛速度和收敛本身.如果学习率是恒定的,Q函数会收敛到最优开启还是学习率必然会衰减以保证收敛？

Answer 1

学习率表明解决方案所采取的步骤的大小。

它不应该太大，因为它可能会围绕最小值不断振荡，也不应该太小，否则需要大量时间和迭代才能达到最小值。

在学习率中建议衰减的原因是因为最初当我们处于解决方案空间中完全随机的点时，我们需要向解决方案迈出大步，后来当我们接近它时，我们会进行小幅度的跳跃，因此对解决方案进行小幅改进最终达到最小值。

可以打个比方：在高尔夫球比赛中，当球离球洞很远时，球员会非常用力地击球以尽可能靠近球洞。稍后当他到达标记区域时，他选择了不同的球杆来获得准确的短射。

所以不是不选短杆就不能把球打进洞里，他可能会在目标前两三次把球传出去。但最好是他以最佳方式打球并使用正确的力量到达球洞。衰减的学习率也是如此。