小编Jac*_*ack的帖子

为什么我的 Deep Q Net 和 Double Deep Q Net 不稳定?

我正在尝试实施 DQN 和 DDQN(都有经验回复)来解决 OpenAI AI-Gym Cartpole Environment。这两种方法有时都能学习和解决这个问题,但并非总是如此。

我的网络只是一个前馈网络(我尝试使用 1 和 2 个隐藏层)。在 DDQN 中,我在 DQN 中创建了一个网络,在 DDQN 中创建了两个网络,一个评估 Q 值的目标网络和一个选择最佳动作的主网络,训练主网络,并在一些情节后将其复制到目标网络。

DQN 中的问题是:

  • 有时它在100集内可以达到完美的200分,但有时它会卡住,无论训练多久都只能达到10分。
  • 此外,在成功学习的情况下,学习速度不同。

DDQN 中的问题是:

  • 它可以学习达到 200 分,但随后它似乎忘记了所学,分数急剧下降。

我试过调整批量大小、学习率、隐藏层中的神经元数量、隐藏层数量、探索率,但不稳定性仍然存在。

关于网络大小和批量大小是否有任何经验法则?我认为合理更大的网络和更大的批量会增加稳定性。

是否有可能使学习稳定?任何意见或参考表示赞赏!

python reinforcement-learning q-learning tensorflow

2
推荐指数
1
解决办法
3095
查看次数