为什么蒙特卡罗树搜索重置树

gow*_*ath 6 algorithm artificial-intelligence montecarlo

关于蒙特卡罗树搜索,我有一个小但可能很愚蠢的问题.我理解其中的大部分内容但是一直在查看一些实现,并注意到在MCTS针对给定状态运行并返回最佳移动之后,该树被丢弃.因此,对于下一步行动,我们必须在这个新状态下从零开始运行MCTS以获得下一个最佳位置.

我只是想知道为什么我们不保留旧树的一些信息.似乎有关于旧树中状态的有价值信息,特别是考虑到最佳移动是MCTS最常探索的移动.有什么特别的原因我们不能以某种有用的方式使用这些旧信息吗?

Pet*_*vaz 8

一些实现确实保留了信息.

例如,AlphaGo Zero论文说:

在随后的时间步骤中重用搜索树:对应于播放的动作的子节点成为新的根节点; 此子项下面的子树及其所有统计信息都会保留,而树的其余部分将被丢弃