bzk*_*rat 9 artificial-intelligence machine-learning reinforcement-learning tic-tac-toe q-learning
我无法理解如何更新tic tac toe游戏的Q值.我读了所有这些,但我无法想象如何做到这一点.我读到Q值在游戏结束时更新,但我不明白,如果每个动作都有Q值?
Q每个状态 - 动作对都有一个值.Q在执行每个操作后更新一个值.更确切地说,如果a1从州采取行动s1让您进入州s2并为您带来一些奖励r,那么您更新Q(s1, a1)如下:
Q(s1, a1) = Q(s1, a1) + learning_rate * (r + discount_factor * max Q(s2, _) - Q(s1, a1))
Run Code Online (Sandbox Code Playgroud)
在许多游戏中,例如井字游戏,你不会在游戏结束前获得奖励,这就是为什么你必须通过几集来运行算法.这就是关于最终状态效用的信息如何传播到其他状态.