标签: value-iteration

值迭代和策略迭代之间有什么区别?

在强化学习中,策略迭代值迭代之间有什么区别?

根据我的理解,在价值迭代中,您使用Bellman方程来求解最优策略,而在策略迭代中,您随机选择策略π,并找到该策略的奖励.

我怀疑的是,如果你在PI中选择随机策略π,即使我们选择了几个随机策略,它如何保证成为最优策略.

machine-learning reinforcement-learning markov-models value-iteration

65
推荐指数
3
解决办法
4万
查看次数