A3C和PPO在强化学习策略梯度方法上有什么相似之处?

Sha*_*ana 3 reinforcement-learning

有什么简单的方法可以将 PPO 的属性与 A3C 方法合并?A3C 方法运行多个 parrel actor 并优化参数。我正在尝试将 PPO 与 A3C 合并。

Hua*_*uan 5

PPO 具有内置机制(代理裁剪目标函数)以防止大梯度更新,并且在大多数连续控制环境中通常优于 A3C。

为了让 PPO 像 A3C 一样享受并行计算的好处,分布式 PPO(DPPO)是要走的路。

查看以下链接以了解有关 DPPO 的更多信息。

来自原始 DeepMind 论文的伪代码

原始 DeepMind 论文:丰富环境中运动行为的出现

如果您打算使用 Tensorflow 在 Python 中实现您的 DPPO 代码,我建议您尝试使用Ray来处理分布式执行部分。