标签: value-iteration

值迭代和策略迭代之间有什么区别？

在强化学习中,策略迭代和值迭代之间有什么区别？

根据我的理解,在价值迭代中,您使用Bellman方程来求解最优策略,而在策略迭代中,您随机选择策略π,并找到该策略的奖励.

我怀疑的是,如果你在PI中选择随机策略π,即使我们选择了几个随机策略,它如何保证成为最优策略.

machine-learning reinforcement-learning markov-models value-iteration

65
推荐指数

3
解决办法

4万
查看次数

标签统计

machine-learning ×1

markov-models ×1

reinforcement-learning ×1

value-iteration ×1