我有一个关于深度强化学习的更普遍的问题。我总是有点纠结,保单内和保单外到底有什么区别。当然,可以说,离策略是在轨迹采样期间从不同的动作分布中进行采样,而在策略是使用实际策略来生成轨迹。或者说,on-policy 无法从旧数据中受益,而 off-policy 可以。两者都没有真正回答确切的区别是什么,而是告诉我输出。
根据我的理解,DDPG 和 PPO 都是建立在 A2C 之上,并行训练演员和评论家。而批评者通常是基于 MSE 进行训练的,使用下一个时间步的观察到的奖励(可能使用一些注册多个步骤,但现在忽略注册)和下一个时间步的网络本身。我在这里没有看到离策略 DDPG 和在策略 PPO 之间的区别(TD3 的做法略有不同,但现在被忽略,因为想法是相同的)。
在这两种情况下,演员本身都有一个基于评论家产生的价值的损失函数。PPO 使用策略的比率来限制步长,而 DDPG 使用策略来预测批评者计算的值的操作。因此,在两种方法(PPO 和 DDPG)中,两种 CURRENT 策略都用于批评者和参与者的损失函数。
现在我的实际问题是:为什么 DDPG 能够从旧数据中受益,或者更确切地说,为什么 PPO 不能从旧数据中受益。有人可能会说,PPO 中政策的比例限制了政策之间的距离,因此需要新的数据。但与 DDPG 相比,A2C 是如何符合政策且无法从旧数据中受益的呢?
我确实理解 Q 学习与政策学习相比更加脱离政策之间的区别。但我不明白这些 PG 方法之间的区别。它是否仅依赖于 DDPG 是确定性的这一事实。DDPG 是否有任何离策略修正,使其能够从旧数据中获利?
如果有人能让我更了解这些政策,我会非常高兴。
干杯