siv*_*iva 5 reinforcement-learning q-learning sarsa
我想我把事情搞砸了。
我一直认为:
- 1-step TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning
因此我得出结论: - n-step TD on-policy = n-step Sarsa
- n-step TD off-policy = n-step Q-learning
然而,在 Sutton 的书中,他从未介绍过 n-step Q-Learning,但他确实介绍了 n-step off-policy Sarsa。现在我感到很困惑。
有人可以帮我命名吗?
链接到 Sutton 的书(第 149 页的 Off-Policy n-step Sarsa)
我一直认为:
- 1 步 TD on-policy = Sarsa
- 1 步 TD off-policy = Q-learning
这大部分是正确的,但不是完整的故事。Q-learning 是 off-policy 1-step temporal-difference learning 的一个版本,但不仅如此;它专门更新相对于当前估计值贪婪的策略的 Q 值。离策略值学习可以更一般,它可以是任何目标策略的学习;Q-learning 更具体,它特别是关于将贪婪策略作为目标策略。
将 Q-learning 天真的扩展到n步骤将不再正确,因为这不适用于 off-policy 算法(如 Q-learning)。您必须以某种方式纠正“偏离政策”;一种方法是重要性抽样。当您以更一般的方式介绍它时(对于任何可能的目标策略),您会在您提到的那个页面上获得算法,他们在那里将其称为 Off-policy n-step Sarsa。我想这个算法的一个特定实例,目标策略pi是关于 的贪婪策略Q,可以直观地理解为n-step Q-learning的“正确”版本。
| 归档时间: |
|
| 查看次数: |
2416 次 |
| 最近记录: |