Sha*_*ana 3 reinforcement-learning
有什么简单的方法可以将 PPO 的属性与 A3C 方法合并?A3C 方法运行多个 parrel actor 并优化参数。我正在尝试将 PPO 与 A3C 合并。
PPO 具有内置机制(代理裁剪目标函数)以防止大梯度更新,并且在大多数连续控制环境中通常优于 A3C。
为了让 PPO 像 A3C 一样享受并行计算的好处,分布式 PPO(DPPO)是要走的路。
查看以下链接以了解有关 DPPO 的更多信息。
如果您打算使用 Tensorflow 在 Python 中实现您的 DPPO 代码,我建议您尝试使用Ray来处理分布式执行部分。