蒙特卡洛树搜索:两人游戏的树策略

CS1*_*101 7 algorithm montecarlo alpha-beta-pruning

我对 MCTS“树策略”的实施方式有些困惑。我读过的每一篇论文或文章都谈到了从当前游戏状态(在 MCTS 术语中:玩家即将采取行动的根)的树。我的问题是,即使我处于 MIN 玩家级别(假设我是 MAX 玩家),我如何选择最好的孩子。即使我选择了 MIN 可能采取的某些特定动作,并且我的搜索树通过该节点变得更深,MIN 玩家在轮到它时也可能会选择一些不同的节点。(如果 min 玩家是业余人类,它可能就像选择一些不一定是最好的节点)。由于 MIN 选择了一个不同的节点,这种类型使得 MAX 在通过该节点传播的整个工作都变得徒劳。对于我所指的步骤: https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/ 其中树政策:https : //jeffbradberry.com/images/mcts_selection.png 有点让我相信他们是从单人视角来执行它的。

c2h*_*2hu 0

对于 MCTS,您需要某种方法来生成可能移动的概率分布的合理估计。对于 AlphaGo [1],这是论文中的快速推出概率 $p_\pi$,它采用一个状态并输出所有可能移动的粗略概率分布。AlphaGo 团队将其实现为一个浅层神经网络,首先在专家游戏上进行训练,然后通过与自身对弈来改进。

[1] http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html