小编Jac*_*ack的帖子

我正在尝试实施 DQN 和 DDQN（都有经验回复）来解决 OpenAI AI-Gym Cartpole Environment。这两种方法有时都能学习和解决这个问题，但并非总是如此。

我的网络只是一个前馈网络（我尝试使用 1 和 2 个隐藏层）。在 DDQN 中，我在 DQN 中创建了一个网络，在 DDQN 中创建了两个网络，一个评估 Q 值的目标网络和一个选择最佳动作的主网络，训练主网络，并在一些情节后将其复制到目标网络。

DQN 中的问题是：

DDQN 中的问题是：

我试过调整批量大小、学习率、隐藏层中的神经元数量、隐藏层数量、探索率，但不稳定性仍然存在。

关于网络大小和批量大小是否有任何经验法则？我认为合理更大的网络和更大的批量会增加稳定性。

是否有可能使学习稳定？任何意见或参考表示赞赏！

2
推荐指数

1
解决办法

3095
查看次数

小编Jac_ack的帖子