小编Occ_Man的帖子

最佳epsilon(ε-贪婪)值

ε-贪婪的政策

我知道Q学习算法应该尝试在探索和利用之间取得平衡.由于我是这个领域的初学者,我想实现一个简单版本的探索/开发行为.

最佳epsilon值

我的实现使用了ε-greedy策略,但在决定epsilon值时我很茫然.ε应该由算法访问给定(状态,动作)对的次数限制,还是应该由执行的迭代次数限制？

我的建议:

每次遇到给定(状态,动作)对时,降低epsilon值.
执行完整迭代后降低epsilon值.
每次遇到状态s时降低epsilon值.

非常感激!

machine-learning reinforcement-learning q-learning

16
推荐指数

1
解决办法

2万
查看次数

标签统计

machine-learning ×1

reinforcement-learning ×1