A3C和PPO在强化学习策略梯度方法上有什么相似之处？

Question

有什么简单的方法可以将 PPO 的属性与 A3C 方法合并？A3C 方法运行多个 parrel actor 并优化参数。我正在尝试将 PPO 与 A3C 合并。

Answer 1

PPO 具有内置机制（代理裁剪目标函数）以防止大梯度更新，并且在大多数连续控制环境中通常优于 A3C。

为了让 PPO 像 A3C 一样享受并行计算的好处，分布式 PPO（DPPO）是要走的路。

查看以下链接以了解有关 DPPO 的更多信息。

如果您打算使用 Tensorflow 在 Python 中实现您的 DPPO 代码，我建议您尝试使用Ray来处理分布式执行部分。