为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法？

Question

为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法？

siv*_*iva 5 reinforcement-learning q-learning sarsa

我想我把事情搞砸了。

我一直认为：
- 1-step TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning

因此我得出结论： - n-step TD on-policy = n-step Sarsa
- n-step TD off-policy = n-step Q-learning

然而，在 Sutton 的书中，他从未介绍过 n-step Q-Learning，但他确实介绍了 n-step off-policy Sarsa。现在我感到很困惑。

有人可以帮我命名吗？

链接到 Sutton 的书（第 149 页的 Off-Policy n-step Sarsa）

Answer 1

Den*_*ers 8

我一直认为：

1 步 TD on-policy = Sarsa

1 步 TD off-policy = Q-learning

这大部分是正确的，但不是完整的故事。Q-learning 是 off-policy 1-step temporal-difference learning 的一个版本，但不仅如此；它专门更新相对于当前估计值贪婪的策略的 Q 值。离策略值学习可以更一般，它可以是任何目标策略的学习；Q-learning 更具体，它特别是关于将贪婪策略作为目标策略。

将 Q-learning 天真的扩展到n步骤将不再正确，因为这不适用于 off-policy 算法（如 Q-learning）。您必须以某种方式纠正“偏离政策”；一种方法是重要性抽样。当您以更一般的方式介绍它时（对于任何可能的目标策略），您会在您提到的那个页面上获得算法，他们在那里将其称为 Off-policy n-step Sarsa。我想这个算法的一个特定实例，目标策略pi是关于的贪婪策略Q，可以直观地理解为n-step Q-learning的“正确”版本。

归档时间：	7 年，10 月前
查看次数：	2416 次
最近记录：	7 年，10 月前