小编Bob*_*ith的帖子

蒙特卡罗树搜索,反向传播(备份)步骤:为什么要改变奖励价值的视角？

我一直在阅读Browne等人的Monte Carlo Tree Search调查报告.人:

http://ccg.doc.gold.ac.uk/papers/browne_tciaig12_1.pdf

"蒙特卡罗树搜索方法概述"

我正在和p上的一个伪代码搏斗.9.我的问题在Backup和BackupNegamax函数中以类似的形式出现.

假设我是2人零和游戏中的玩家1.(所以,使用BackupNegamax功能.)现在轮到我了,我正在使用MCTS来选择我的行动.在BackupNegamax中,为什么在备份树时否定delta值？我知道在一个双人游戏的零和游戏中,如果奖励是玩家1(我)的增量,那么它是玩家2的-delta.但是整个树不应该来自玩家1的视角吗？(这将类似于节点在极小极大树中的评级,如果我没有弄错的话.)

如果Q值的视角根据您所在的树的级别来回切换,那么BestChild函数中显示的计算会不会搞乱？具体来说,假设一些节点v具有非常高的Q值,因为它经常导致玩家1的高回报.给定的伪代码似乎表明v的父母,我称之为u,可能会非常低(非常负)Q值(当然你的Q值也会考虑其他孩子的Q值.)

因此,对我而言,你(父母)的Q值非常低,而v(孩子)的Q值非常高,这对我没有意义.我知道v是来自玩家1的伪代码视角,而你是来自玩家2的视角,但我的问题是为什么.为什么不从播放器1的角度存储节点的Q值？这样,u和v都具有高Q值,因此具有较高的利用率,并且根据BestChild函数它们都被认为对于进一步利用是有价值的.

(我是从迷你世界的经验来到MCTS,而在极小极大情况下,整个树都来自Max的视角,所以这就是为什么我在这里挣扎着不同的想法.)

我的问题也适用于备份 - 为什么根据树的那个级别的玩家的角度更新每个Q值,而不是从"我的"角度更新所有内容？

我希望我的问题清楚.非常感谢您的帮助!

algorithm artificial-intelligence montecarlo

Bob*_*ith

lucky-day

4
推荐指数

1
解决办法

1504
查看次数

涉及div的CSS继承

我一直在阅读很多关于CSS继承的内容,但是我还没有找到关于这个问题的任何内容,我很困惑.请考虑以下事项:

<!DOCTYPE HTML>
<html>
<head>
<style type="text/css">
.anc {
  background-color: blue;
  color: red;
}
.des {
  background-color: inherit;
  color: inherit;
}
</style>
</head>
<body>

<div class="anc">
  <p class="des">
    One <!-- Blue background, red text. Clearly inheritance. -->
  </p>
</div>

<p class="anc">
  <div class="des">
    Two <!-- Why is nothing inherited here? -->
  </div>
</p>
</body>
</html>

Run Code Online (Sandbox Code Playgroud)

"One"文本正如我所期望的那样工作.但我不明白为什么"两个"文本也没有蓝色背景和红色文本.

关于块元素的继承是否有一些特殊的规则而不是内联元素？还是特别关于div的东西？我在这里错过了什么？您是否有在线参考对继承的非常详尽的解释？我见过的所有东西(我已经看了很长时间)只是解释了像"One"这样的例子,但没有解决像"Two"这样的问题.

我知道有很多(更好的)方法可以获得我在这里要求的相同视觉效果.但是这个例子是关于我试图理解一般的继承,而不是试图对这个HTML代码产生任何特殊的影响.

非常感谢你的帮助!

html css inheritance

Bob*_*ith

lucky-day

3
推荐指数

2
解决办法

3507
查看次数