小编SKG*_*SKG的帖子

Q学习-epsilon贪婪更新

我试图了解 DQN 中的 epsilon - 贪婪方法。我正在从https://github.com/karpathy/convnetjs/blob/master/build/deepqlearn.js 中提供的代码中学习

以下是随年龄变化的 epsilon 更新规则如下:

$this.epsilon = Math.min(1.0, Math.max(this.epsilon_min, 1.0-(this.age - this.learning_steps_burnin)/(this.learning_steps_total - this.learning_steps_burnin)));

这是否意味着 epsilon 值从 min(由用户选择)开始,然后随着年龄增加达到burnin 步骤并最终变为1?或者 epsilon 是否从 1 左右开始然后衰减到 epsilon_min ?

无论哪种方式,在这个过程之后学习几乎停止。那么,我们是否需要足够仔细地选择 learning_steps_burnin 和 learning_steps_total 呢?关于需要选择什么值的任何想法?

performance reinforcement-learning neural-network q-learning deep-learning

3
推荐指数
1
解决办法
5382
查看次数