我正在使用DQN算法在我的环境中训练代理,如下所示:
我已经调整了一些超参数(网络架构,探索,学习率),这些参数给了我一些下降的结果,但是仍然不如预期。在训练过程中,每个Epiode的奖励不断增加。Q值也在收敛(请参见图1)。但是,对于超参数的所有不同设置,Q损耗并未收敛(请参见图2)。我认为,Q损失缺乏收敛性可能是获得更好结果的限制因素。
我正在使用每20k个时间步更新一次的目标网络。Q损失以MSE计算。
您是否知道为什么Q损失没有收敛?Q-Loss是否必须收敛为DQN算法?我想知道,为什么大多数论文都没有讨论Q损失。