最佳epsilon(ε-贪婪)值

Question

最佳epsilon(ε-贪婪)值

Occ*_*Man 16 machine-learning reinforcement-learning q-learning

ε-贪婪的政策

我知道Q学习算法应该尝试在探索和利用之间取得平衡.由于我是这个领域的初学者,我想实现一个简单版本的探索/开发行为.

最佳epsilon值

我的实现使用了ε-greedy策略,但在决定epsilon值时我很茫然.ε应该由算法访问给定(状态,动作)对的次数限制,还是应该由执行的迭代次数限制？

我的建议:

每次遇到给定(状态,动作)对时,降低epsilon值.
执行完整迭代后降低epsilon值.
每次遇到状态s时降低epsilon值.

非常感激!

Answer 1

NKN*_*NKN 21

虽然在许多简单的情况下,εk保持为0和1范围内的固定数,但您应该知道:通常,探索会随着时间的推移而减少,因此渐近使用的策略变得贪婪,因此(如Qk→Q*)最优.这可以通过在k增长时使εk逼近0来实现.例如,形式εk= 1/k的ε-共同探索时间表减小到0,因为k→∞,同时仍然满足Q学习的第二个收敛条件,即允许无限次访问所有状态动作对(Singh等,2000).

我通常做的是:在你通过试验进行试验后设置初始alpha = 1/k(考虑初始k = 1或2),因为k增加alpha将减少.它也保证了收敛.

也称为epsilon-decay. (4认同)

归档时间：	11 年，8 月前
查看次数：	16754 次
最近记录：	11 年，7 月前