Epsilon和学习率在epsilon贪婪q学习中的衰减

Question

Epsilon和学习率在epsilon贪婪q学习中的衰减

mad*_*die 4 machine-learning reinforcement-learning q-learning

我知道epsilon标志着勘探与开发之间的权衡。刚开始时，您希望epsilon高，这样您就可以大踏步学习东西。当您了解未来的回报时，ε会衰减，以便您可以利用已找到的更高的Q值。

但是，在随机环境中，我们的学习率是否也会随着时间而衰减？我见过的SO帖子仅讨论epsilon衰减。

我们如何设置epsilon和alpha以使值收敛？

Answer 1

ngo*_*mao 7

正如Vishma Dias的答案描述了学习率 [decay]，我想详细阐述 epsilon-greedy 方法，我认为这个问题隐含地提到了用于探索和利用的衰减 epsilon-greedy方法。

在训练 RL 策略期间平衡探索和利用的一种方法是使用epsilon-greedy方法。例如， $厄普西隆$ =0.3 表示概率=0.3 时，输出动作是从动作空间中随机选择的，而概率=0.7 时，输出动作是基于 argmax(Q) 贪婪地选择的。

对 epsilon-greedy 方法的改进称为衰减 epsilon-greedy方法。例如，在这种方法中，我们训练一个总共 N 个时期/时期的策略（这取决于具体问题），算法最初设置 $厄普西隆$ = 压住他（例如，=0.6），然后逐渐减小直至结束 $厄普西隆$ = $待定$ （例如， $待定$ =0.1) 超过 $步长$ 训练时期/情节。具体来说，在最初的训练过程中，我们让模型更自由地以高概率进行探索（例如，=0.6），然后逐渐减小 $厄普西隆$ 训练周期/片段的速率r如下：