小编SKG*_*SKG的帖子

Q学习-epsilon贪婪更新

我试图了解 DQN 中的 epsilon - 贪婪方法。我正在从https://github.com/karpathy/convnetjs/blob/master/build/deepqlearn.js 中提供的代码中学习

以下是随年龄变化的 epsilon 更新规则如下：

$this.epsilon = Math.min(1.0, Math.max(this.epsilon_min, 1.0-(this.age - this.learning_steps_burnin)/(this.learning_steps_total - this.learning_steps_burnin)));

这是否意味着 epsilon 值从 min（由用户选择）开始，然后随着年龄增加达到burnin 步骤并最终变为1？或者 epsilon 是否从 1 左右开始然后衰减到 epsilon_min ？

无论哪种方式，在这个过程之后学习几乎停止。那么，我们是否需要足够仔细地选择 learning_steps_burnin 和 learning_steps_total 呢？关于需要选择什么值的任何想法？

performance reinforcement-learning neural-network q-learning deep-learning

SKG*_*SKG

lucky-day

3
推荐指数

1
解决办法

5382
查看次数

标签统计

deep-learning ×1

neural-network ×1

performance ×1

q-learning ×1

reinforcement-learning ×1

Q学习-epsilon贪婪更新

标签 统计

小编SKG_SKG的帖子

标签统计