确定性政策梯度优于随机政策梯度的优势是什么？

Question

深度确定性政策梯度(DDPG)是动作空间连续时强化学习的最先进方法.其核心算法是确定性策略梯度.

然而,在阅读了论文并听取了谈话之后(http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/),我仍然无法弄清楚确定性PG比Stochastic PG的基本优势是什么.谈话说它更适合高维动作并且更容易训练,但为什么呢？

Answer 1

策略梯度法的主要原因是解决连续动作空间问题，由于全局Q最大化，Q学习困难。

SPG 可以解决连续动作空间问题，因为它用连续概率分布表示策略。由于 SPG 假设它的策略是一个分布，它需要对动作进行积分以获得整体奖励的梯度。SPG 使用重要性采样来进行这种集成。

DPG 通过从状态到动作的确定性映射来表示策略。它可以这样做，因为它不采取全局最大 Q 的动作，而是根据确定性映射（如果在策略上）选择动作，同时通过 Q 的梯度（开和关策略）移动此确定性映射。整体奖励的梯度有一个形式，不需要对动作进行积分，更容易计算。

可以说，从随机策略转变为确定性策略似乎是一种退步。但首先引入随机策略仅用于处理连续动作空间。确定性策略现在提供了另一种处理连续动作空间的方法。

我的观察是从这些论文中获得的：

确定性策略梯度算法

具有函数逼近的强化学习的策略梯度方法

深度强化学习的持续控制

Answer 2

因为策略是确定性的而不是随机的，这意味着每个状态只会选择一个操作。