蒙特卡洛树搜索：两人游戏的树策略

Question

蒙特卡洛树搜索：两人游戏的树策略

CS1*_*101 7 algorithm montecarlo alpha-beta-pruning

我对 MCTS“树策略”的实施方式有些困惑。我读过的每一篇论文或文章都谈到了从当前游戏状态（在 MCTS 术语中：玩家即将采取行动的根）的树。我的问题是，即使我处于 MIN 玩家级别（假设我是 MAX 玩家），我如何选择最好的孩子。即使我选择了 MIN 可能采取的某些特定动作，并且我的搜索树通过该节点变得更深，MIN 玩家在轮到它时也可能会选择一些不同的节点。（如果 min 玩家是业余人类，它可能就像选择一些不一定是最好的节点）。由于 MIN 选择了一个不同的节点，这种类型使得 MAX 在通过该节点传播的整个工作都变得徒劳。对于我所指的步骤： https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/ 其中树政策：https : //jeffbradberry.com/images/mcts_selection.png 有点让我相信他们是从单人视角来执行它的。

Answer 1

c2h*_*2hu 0

对于 MCTS，您需要某种方法来生成可能移动的概率分布的合理估计。对于 AlphaGo [1]，这是论文中的快速推出概率 $p_\pi$，它采用一个状态并输出所有可能移动的粗略概率分布。AlphaGo 团队将其实现为一个浅层神经网络，首先在专家游戏上进行训练，然后通过与自身对弈来改进。

[1] http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

归档时间：	8 年，12 月前
查看次数：	1511 次
最近记录：	5 年，8 月前