zim*_*rol 4 reinforcement-learning temporal-difference
我目前正在阅读萨顿的Reinforcement Learning: An introduction书。阅读第6.1章后,我想TD(0)为此设置实现RL算法:
这样做时,我想知道如何执行此步骤A <- action given by ? for S:我可以A为当前状态选择最佳动作S吗?由于值函数V(S)仅取决于状态,而不取决于我并不真正知道的操作,因此如何实现。
我发现了这个问题(我从哪里获得图像),该问题涉及相同的练习-但在这里,操作是随机选择的,而不是由操作策略选择的?。
编辑:或者这是伪代码不完整的,所以我也必须以action-value function Q(s, a)另一种方式近似?
没错,您不能?仅从值函数中选择操作(都不派生策略)V(s),因为您注意到,它仅取决于状态s。
您可能在这里可能缺少的关键概念是TD(0)学习是一种计算给定策略的价值函数的算法。因此,您假设您的代理正在遵循已知策略。对于随机游走问题,该策略包括随机选择动作。
如果您希望能够学习策略,则需要估算操作值函数Q(s,a)。存在Q(s,a)基于时差学习的几种学习方法,例如SARSA和Q学习。
在萨顿的RL书中,作者区分了两种问题:预测问题和控制问题。前者是指估计给定策略的价值函数的过程,后者是指估计策略的过程(通常是通过行动价值函数)。您可以在第6章的开始部分找到对这些概念的引用:
像往常一样,我们首先关注政策评估或预测问题,即评估给定政策的价值函数。对于控制问题(查找最佳策略),DP,TD和蒙特卡洛方法均使用广义策略迭代(GPI)的某些变体。方法上的差异主要是解决预测问题的方法上的差异。
| 归档时间: |
|
| 查看次数: |
740 次 |
| 最近记录: |