如何在 Q-learning 中计算 MaxQ？

Question

我实现了 Q 学习，特别是贝尔曼方程。

我正在使用网站上的版本来指导他解决问题，但我有问题：对于 maxQ，我是否使用新状态（s'）的所有 Q 表值来计算最大奖励 - 在我的情况下有 4 种可能动作（a'），每个动作都有各自的值，或者是采取动作（a'）时所有位置的Q表值的总和？

换句话说，我是使用我可以采取的所有可能操作中的最高 Q 值，还是使用所有“相邻”方块的 Q 值之和？

Answer 1

您始终将最大 Q 值用于您可以采取的所有可能的操作。

这个想法是选择下一个状态具有最大（最佳）Q 值的动作，以保持最优策略 Qpi* 。