确定性政策梯度优于随机政策梯度的优势是什么?

Dar*_*ero 11 reinforcement-learning

深度确定性政策梯度(DDPG)是动作空间连续时强化学习的最先进方法.其核心算法是确定性策略梯度.

然而,在阅读了论文并听取了谈话之后(http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/),我仍然无法弄清楚确定性PG比Stochastic PG的基本优势是什么.谈话说它更适合高维动作并且更容易训练,但为什么呢?

Ron*_* Ku 8

策略梯度法的主要原因是解决连续动作空间问题,由于全局Q最大化,Q学习困难。

SPG 可以解决连续动作空间问题,因为它用连续概率分布表示策略。由于 SPG 假设它的策略是一个分布,它需要对动作进行积分以获得整体奖励的梯度。SPG 使用重要性采样来进行这种集成。

DPG 通过从状态到动作的确定性映射来表示策略。它可以这样做,因为它不采取全局最大 Q 的动作,而是根据确定性映射(如果在策略上)选择动作,同时通过 Q 的梯度(开和关策略)移动此确定性映射。整体奖励的梯度有一个形式,不需要对动作进行积分,更容易计算。

可以说,从随机策略转变为确定性策略似乎是一种退步。但首先引入随机策略仅用于处理连续动作空间。确定性策略现在提供了另一种处理连续动作空间的方法。

我的观察是从这些论文中获得的:

确定性策略梯度算法

具有函数逼近的强化学习的策略梯度方法

深度强化学习的持续控制


小智 0

因为策略是确定性的而不是随机的,这意味着每个状态只会选择一个操作。