mad*_*die 4 machine-learning reinforcement-learning q-learning
我知道epsilon标志着勘探与开发之间的权衡。刚开始时,您希望epsilon高,这样您就可以大踏步学习东西。当您了解未来的回报时,ε会衰减,以便您可以利用已找到的更高的Q值。
但是,在随机环境中,我们的学习率是否也会随着时间而衰减?我见过的SO帖子仅讨论epsilon衰减。
我们如何设置epsilon和alpha以使值收敛?
正如Vishma Dias的答案描述了学习率 [decay],我想详细阐述 epsilon-greedy 方法,我认为这个问题隐含地提到了用于探索和利用的衰减 epsilon-greedy方法。
在训练 RL 策略期间平衡探索和利用的一种方法是使用epsilon-greedy方法。例如,=0.3 表示概率=0.3 时,输出动作是从动作空间中随机选择的,而概率=0.7 时,输出动作是基于 argmax(Q) 贪婪地选择的。
对 epsilon-greedy 方法的改进称为衰减 epsilon-greedy方法。例如,在这种方法中,我们训练一个总共 N 个时期/时期的策略(这取决于具体问题),算法最初设置=
(例如,
=0.6),然后逐渐减小直至结束=
(例如,
=0.1) 超过
训练时期/情节。具体来说,在最初的训练过程中,我们让模型更自由地以高概率进行探索(例如,
=0.6),然后逐渐减小训练周期/片段的速率r如下:
通过这种更加灵活的选择,以极小的探索概率结束, 后
训练过程将更多地关注剥削(即贪婪),同时在策略近似收敛时仍然可以以很小的概率进行探索。
您可以在这篇文章中看到衰减 epsilon-greedy 方法的优点。
刚开始时,您希望epsilon高,这样您就可以大踏步学习东西
我认为您错了ε和学习率。这个定义实际上与学习率有关。
学习率下降
学习率是您在寻求最佳政策方面迈出的一大步。用简单的QLearning来讲,就是每个步骤要更新Q值的数量。
较高的alpha值表示您正在逐步更新Q值。当代理学习时,您应该衰减它以稳定模型输出,最终收敛到最佳策略。
厄普西隆衰变
当我们根据已有的Q值选择特定的动作时,将使用Epsilon。例如,如果我们选择纯贪婪方法(epsilon = 0),那么我们总是在特定状态的所有q值中选择最高的q值。这会导致探索问题,因为我们很容易陷入局部最优状态。
因此,我们引入了使用ε的随机性。例如,如果epsilon = 0.3,则无论实际q值如何,我们都以0.3的概率选择随机动作。
在此处找到有关epsilon-greedy政策的更多详细信息。
总之,学习速度与您跳跃的程度相关,而ε与您进行动作的随机性相关。随着学习的进行,两者都应该衰落以稳定并利用所学习的策略,从而收敛到最佳策略。
| 归档时间: |
|
| 查看次数: |
3506 次 |
| 最近记录: |