如何在Sutton&Barto的RL书中理解Watkins的Q(λ)学习算法？

Question

如何在Sutton&Barto的RL书中理解Watkins的Q(λ)学习算法？

use*_*199 5 reinforcement-learning q-learning

在Sutton&Barto的RL书(链接)中,Watkins的Q(λ)学习算法如图7.14所示: 第10行"对于所有s,a:",这里的"s,a"适用于所有(s,a),而第8行和第9行中的(s,a)用于当前(s,a) , 这是正确的吗？

在第12行和第13行中,当'!= a*,执行第13行时,所有e(s,a)都将设置为0,那么当所有资格跟踪都设置为0时,资格跟踪的点是什么,因为情况'!= a*会经常发生.即使情况'!= a*不经常发生,但一旦发生,资格跟踪的含义将完全失败,那么Q将不会再次更新,因为所有的e(s,a)= 0,然后在每次更新时,如果使用替换迹线,e(s,a)仍将为0.

那么,这是一个错误吗？

Answer 1

小智 6

资格痕迹的想法是仅对符合条件的州 - 行动对给予信任或指责.Sutton&Barto的这本书很好地说明了这个想法: 资格痕迹的后向观点

在Watkin的Q(λ)算法中,如果您以确定的方式遵循策略Q(总是选择最佳动作),您希望对实际访问过的状态 - 动作对给予信任/责备.

所以问题的答案在第5行:

Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)

因为'被选择ε贪婪,有一点机会(概率为epsilon)你采取探索性随机步骤而不是贪婪步骤.在这种情况下,整个资格跟踪被设置为零,因为将信用/责任归咎于之前访问过的状态 - 动作对是没有意义的.您在随机探索步骤之前访问过的州 - 行动对不值得信任/责备未来的奖励,因此您删除了整个资格跟踪.在之后的时间步骤中,您开始建立新的资格跟踪...

希望有所帮助.

Answer 2

use*_*199 0

我一步步写出这个过程之后，我现在就明白了。在 a'!=a* 之后，所有 e(s,a) 的迹线都设置为 0，但 e(s',a') 在下一步中再次设置为 1（此处为第 9 行）。在这里查看我的理解细节

归档时间：	9 年，5 月前
查看次数：	2566 次
最近记录：	9 年，5 月前