在强化学习中,策略迭代和值迭代之间有什么区别?
根据我的理解,在价值迭代中,您使用Bellman方程来求解最优策略,而在策略迭代中,您随机选择策略π,并找到该策略的奖励.
我怀疑的是,如果你在PI中选择随机策略π,即使我们选择了几个随机策略,它如何保证成为最优策略.
machine-learning reinforcement-learning markov-models value-iteration
machine-learning ×1
markov-models ×1
reinforcement-learning ×1
value-iteration ×1