use*_*199 5 reinforcement-learning q-learning
在Sutton&Barto的RL书(链接)中,Watkins的Q(λ)学习算法如图7.14所示:
第10行"对于所有s,a:",这里的"s,a"适用于所有(s,a),而第8行和第9行中的(s,a)用于当前(s,a) , 这是正确的吗?
在第12行和第13行中,当'!= a*,执行第13行时,所有e(s,a)都将设置为0,那么当所有资格跟踪都设置为0时,资格跟踪的点是什么,因为情况'!= a*会经常发生.即使情况'!= a*不经常发生,但一旦发生,资格跟踪的含义将完全失败,那么Q将不会再次更新,因为所有的e(s,a)= 0,然后在每次更新时,如果使用替换迹线,e(s,a)仍将为0.
那么,这是一个错误吗?
小智 6
资格痕迹的想法是仅对符合条件的州 - 行动对给予信任或指责.Sutton&Barto的这本书很好地说明了这个想法: 资格痕迹的后向观点
在Watkin的Q(λ)算法中,如果您以确定的方式遵循策略Q(总是选择最佳动作),您希望对实际访问过的状态 - 动作对给予信任/责备.
所以问题的答案在第5行:
Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)
因为'被选择ε贪婪,有一点机会(概率为epsilon)你采取探索性随机步骤而不是贪婪步骤.在这种情况下,整个资格跟踪被设置为零,因为将信用/责任归咎于之前访问过的状态 - 动作对是没有意义的.您在随机探索步骤之前访问过的州 - 行动对不值得信任/责备未来的奖励,因此您删除了整个资格跟踪.在之后的时间步骤中,您开始建立新的资格跟踪...
希望有所帮助.
我一步步写出这个过程之后,我现在就明白了。在 a'!=a* 之后,所有 e(s,a) 的迹线都设置为 0,但 e(s',a') 在下一步中再次设置为 1(此处为第 9 行)。在这里查看我的理解细节