如何在TD（0）学习中选择动作

Question

我目前正在阅读萨顿的Reinforcement Learning: An introduction书。阅读第6.1章后，我想TD(0)为此设置实现RL算法：

为此，我尝试实现此处显示的伪代码：

这样做时，我想知道如何执行此步骤A <- action given by ? for S：我可以A为当前状态选择最佳动作S吗？由于值函数V(S)仅取决于状态，而不取决于我并不真正知道的操作，因此如何实现。

我发现了这个问题（我从哪里获得图像），该问题涉及相同的练习-但在这里，操作是随机选择的，而不是由操作策略选择的?。

编辑：或者这是伪代码不完整的，所以我也必须以action-value function Q(s, a)另一种方式近似？

Answer 1

没错，您不能?仅从值函数中选择操作（都不派生策略）V(s)，因为您注意到，它仅取决于状态s。

您可能在这里可能缺少的关键概念是TD（0）学习是一种计算给定策略的价值函数的算法。因此，您假设您的代理正在遵循已知策略。对于随机游走问题，该策略包括随机选择动作。

如果您希望能够学习策略，则需要估算操作值函数Q(s,a)。存在Q(s,a)基于时差学习的几种学习方法，例如SARSA和Q学习。

在萨顿的RL书中，作者区分了两种问题：预测问题和控制问题。前者是指估计给定策略的价值函数的过程，后者是指估计策略的过程（通常是通过行动价值函数）。您可以在第6章的开始部分找到对这些概念的引用：

像往常一样，我们首先关注政策评估或预测问题，即评估给定政策的价值函数。对于控制问题（查找最佳策略），DP，TD和蒙特卡洛方法均使用广义策略迭代（GPI）的某些变体。方法上的差异主要是解决预测问题的方法上的差异。