4 c++ reinforcement-learning q-learning
我正在使用网站上的版本来指导他解决问题,但我有问题:对于 maxQ,我是否使用新状态(s')的所有 Q 表值来计算最大奖励 - 在我的情况下有 4 种可能动作(a'),每个动作都有各自的值,或者是采取动作(a')时所有位置的Q表值的总和?
换句话说,我是使用我可以采取的所有可能操作中的最高 Q 值,还是使用所有“相邻”方块的 Q 值之和?
| 归档时间: |
|
| 查看次数: |
1304 次 |
| 最近记录: |