Kar*_*rus 4 machine-learning reinforcement-learning
在强化学习中,我试图理解策略迭代和值迭代之间的区别.这里有一些一般的答案,但我有两个具体的问题,我找不到答案.
1)我听说政策迭代"向前工作",而价值迭代"向后工作".这是什么意思?我认为这两种方法只需要采用每个状态,然后查看它可以达到的所有其他状态,并从中计算出值 - 通过边缘化策略的动作分配(策略迭代)或者将argmax与动作值(值迭代).那么为什么每种方法都"移动"的"方向"有什么概念呢?
2)策略迭代需要在策略评估期间进行迭代过程,以找到值函数 - 然而,值迭代只需要一步.为什么会有所不同?为什么值迭代只需一步收敛?
谢谢!
@Nick Walker提供的答案是正确且相当完整的,但是我想添加一个图形解释,说明Value迭代和Policy迭代之间的区别,这可能有助于回答问题的第二部分.
PI和VI这两种方法遵循基于广义策略迭代的相同工作原理.这基本上意味着它们在改进策略(需要知道其价值函数)和计算新的改进策略的价值函数之间交替.
在这个迭代过程结束时,价值和政策都收敛到最优.
然而,注意到没有必要精确计算全值函数,相反,需要一步来允许收敛.在下图中,(b)表示Policy Iteration执行的操作,其中计算了完整值函数.而(d)显示了值迭代如何工作.
显然,这两种方法的表示都是简单的,但它突出了每种算法背后的关键思想之间的差异.
| 归档时间: |
|
| 查看次数: |
2058 次 |
| 最近记录: |