Tic Tac Toe的Q学习算法

Question

我无法理解如何更新tic tac toe游戏的Q值.我读了所有这些,但我无法想象如何做到这一点.我读到Q值在游戏结束时更新,但我不明白,如果每个动作都有Q值？

Answer 1

Q每个状态 - 动作对都有一个值.Q在执行每个操作后更新一个值.更确切地说,如果a1从州采取行动s1让您进入州s2并为您带来一些奖励r,那么您更新Q(s1, a1)如下:

Q(s1, a1) = Q(s1, a1) + learning_rate * (r + discount_factor * max Q(s2, _) - Q(s1, a1))

在许多游戏中,例如井字游戏,你不会在游戏结束前获得奖励,这就是为什么你必须通过几集来运行算法.这就是关于最终状态效用的信息如何传播到其他状态.

要确定在特定州采取哪种行动,您需要一项政策.实现Q-Learning时的一个常见选择是使用epsilon-greedy(带有衰减的epsilon),它考虑了探索和利用之间的权衡. (2认同)