小编bzk*_*rat的帖子

Tic Tac Toe的Q学习算法

我无法理解如何更新tic tac toe游戏的Q值.我读了所有这些,但我无法想象如何做到这一点.我读到Q值在游戏结束时更新,但我不明白,如果每个动作都有Q值?

artificial-intelligence machine-learning reinforcement-learning tic-tac-toe q-learning

9
推荐指数
1
解决办法
3245
查看次数