小编use*_*893的帖子

DQN-Q损失未收敛

我正在使用DQN算法在我的环境中训练代理,如下所示:

  • 特工通过选择离散动作(左,右,上,下)来控制汽车
  • 目标是以期望的速度行驶而不会撞到其他汽车
  • 该状态包含代理商汽车和周围汽车的速度和位置
  • 奖励:-100撞到其他汽车,根据与期望速度的绝对差值得到正奖励(如果以期望速度行驶,则为+50)

我已经调整了一些超参数(网络架构,探索,学习率),这些参数给了我一些下降的结果,但是仍然不如预期。在训练过程中,每个Epiode的奖励不断增加。Q值也在收敛(请参见图1)。但是,对于超参数的所有不同设置,Q损耗并未收敛(请参见图2)。我认为,Q损失缺乏收敛性可能是获得更好结果的限制因素。

一种离散动作durnig训练的Q值

训练中的Q损失

我正在使用每20k个时间步更新一次的目标网络。Q损失以MSE计算。

您是否知道为什么Q损失没有收敛?Q-Loss是否必须收敛为DQN算法?我想知道,为什么大多数论文都没有讨论Q损失。

reinforcement-learning q-learning deep-learning tensorflow

5
推荐指数
2
解决办法
4702
查看次数