Dar*_*ero 11 reinforcement-learning
深度确定性政策梯度(DDPG)是动作空间连续时强化学习的最先进方法.其核心算法是确定性策略梯度.
然而,在阅读了论文并听取了谈话之后(http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/),我仍然无法弄清楚确定性PG比Stochastic PG的基本优势是什么.谈话说它更适合高维动作并且更容易训练,但为什么呢?
策略梯度法的主要原因是解决连续动作空间问题,由于全局Q最大化,Q学习困难。
SPG 可以解决连续动作空间问题,因为它用连续概率分布表示策略。由于 SPG 假设它的策略是一个分布,它需要对动作进行积分以获得整体奖励的梯度。SPG 使用重要性采样来进行这种集成。
DPG 通过从状态到动作的确定性映射来表示策略。它可以这样做,因为它不采取全局最大 Q 的动作,而是根据确定性映射(如果在策略上)选择动作,同时通过 Q 的梯度(开和关策略)移动此确定性映射。整体奖励的梯度有一个形式,不需要对动作进行积分,更容易计算。
可以说,从随机策略转变为确定性策略似乎是一种退步。但首先引入随机策略仅用于处理连续动作空间。确定性策略现在提供了另一种处理连续动作空间的方法。
我的观察是从这些论文中获得的:
确定性策略梯度算法
具有函数逼近的强化学习的策略梯度方法
深度强化学习的持续控制
| 归档时间: |
|
| 查看次数: |
1929 次 |
| 最近记录: |