dev*_*ium 7 artificial-intelligence markov
alt text http://img693.imageshack.us/img693/724/markov.png
关于这里的一些观点,我有点困惑:
处理大多数 MDP 问题都有一个模式,但我认为您可能在问题描述中省略了一些信息,很可能它与您试图达到的状态或情节结束的方式有关(什么)如果您跑出网格边缘就会发生)。我已尽力回答您的问题,但我还附加了关于我用来处理此类问题的过程的入门知识。
首先,效用是一个相当抽象的衡量标准,衡量你想要处于给定状态的程度。即使您使用简单的启发式方法(欧几里得距离或曼哈顿距离)来衡量效用,也绝对有可能拥有两个具有相同效用的状态。在这种情况下,我假设效用价值和奖励是可以互换的。
从长远来看,此类问题的目标往往是,如何最大化预期(长期)回报?学习率,伽玛,控制着你对当前状态与你想要的最终状态的重视程度 - 实际上,你可以将伽玛视为一个范围,从“在这个时间步中做对我最有利的事情”到在另一个极端“探索我所有的选择,然后回到最好的”。Sutton 和 Barto 在关于强化学习的书中对它的工作原理有一些非常好的解释。
在开始之前,请回顾一下问题并确保您可以自信地回答以下问题。
那么问题的答案呢?
开始状态 动作 最终状态 概率 -------------------------------------------------- - (0,0) E (0,0) 0.3 (0,0) E (1,0) 0.7 (0,0) E (2,0) 0 ... (0,0) E (0,1) 0 ... (0,0) E (4,4) 0 (0,0) N (0,0) 0.3 ... (4,4) W (3,4) 0.7 (4,4) W (4,4) 0.3
我们如何检查这对于这个问题是否有意义?
编辑。回答对目标状态的转移概率的请求。下面的符号假设
P( v=(3,3) | u =(2,3), a=E ) = 0.7 P( v=(3,3) | u =(4,3), a=W ) = 0.7 P( v=(3,3) | u =(3,2), a=N ) = 0.7 P( v=(3,3) | u =(3,4), a=S ) = 0.7 P( v=(3,3) | u =(3,3) ) = 0.3