我知道Q学习算法应该尝试在探索和利用之间取得平衡.由于我是这个领域的初学者,我想实现一个简单版本的探索/开发行为.
我的实现使用了ε-greedy策略,但在决定epsilon值时我很茫然.ε应该由算法访问给定(状态,动作)对的次数限制,还是应该由执行的迭代次数限制?
非常感激!
machine-learning reinforcement-learning q-learning
machine-learning ×1
q-learning ×1
reinforcement-learning ×1