Q、V(价值函数)和强化学习中的奖励之间究竟有什么区别?

Ras*_*had 2 machine-learning reinforcement-learning q-learning deep-learning

在 Double Q 或 Deuling Q Networks 的上下文中,我不确定我是否完全理解其中的区别。尤其是 V。V(s) 到底是什么?一个国家如何拥有固有的价值?

如果我们在股票交易的背景下考虑这一点,那么我们将如何定义这三个变量?

Max*_*xim 6

  • 无论网络可以谈论什么,奖励都是环境的固有部分。这是代理在执行操作后在其整个生命周期中收到的信号(实际上,是唯一的信号)。例如:该下棋的试剂得到在游戏结束只有一个奖励,无论是+1-1,所有其它时间奖励是零。

    在这里你可以看到这个例子中的一个问题:奖励非常稀疏并且只给出一次,但游戏中的状态显然非常不同。如果代理是当其具有女王的状态,而对手刚刚失去了它,获胜的机会是非常高的(简化了一点点,但你的想法)。这是一个很好的状态,代理应该努力到达那里。另一方面,如果一个代理丢失了所有的棋子,这是一个糟糕的状态,它很可能会输掉比赛。

  • 我们想量化真正好的和坏的状态是什么,这里是价值函数 V(s)。给定任何状态,它返回一个数字,无论大小。通常,正式的定义是在给定要采取的特定政策的情况下对折现的未来奖励的期望(有关政策的讨论,请参阅此问题)。这是完全有道理的:一种好的状态就是这样一种状态,在这种状态下,未来的+1奖励非常有可能;糟糕的状态恰恰相反——未来-1很有可能发生。

    重要提示:价值函数取决于奖励,而不仅仅是针对一种状态,而是针对许多状态。请记住,在我们的示例中,几乎所有状态的奖励都是0。价值函数考虑了所有未来状态及其概率。

    另一个注意事项:严格来说,状态本身没有价值。但是根据我们在环境中的目标,我们已经为它分配了一个,即最大化总奖励。可以有多个策略,每个策略都会产生不同的价值函数。但是(通常)有一个最优策略和相应的最优值函数。这就是我们想要找到的!

  • 最后,Q 函数Q(s, a)动作值函数是对给定策略在特定状态下的特定动作的评估。当我们谈论最优策略时,动作价值函数通过贝尔曼最优方程与价值函数紧密相关。这是有道理的:一个动作的价值完全由采取这个动作后可能状态的价值决定(在国际象棋游戏中,状态转换是确定性的,但一般来说它也是概率性的,这就是为什么我们谈论所有可能的状态在这里)。

    再一次,动作价值函数是未来奖励的衍生物。这不仅仅是当前的奖励。即使直接奖励是相同的,某些行为也可能比其他行为好得多或差得多。


说到股票交易的例子,主要的难点是为代理定义一个策略。让我们想象一个最简单的情况。在我们的环境中,状态只是一个元组(current price, position)。在这种情况下:

  • 仅当代理实际持有职位时,奖励才为非零;当它退出市场时,没有奖励,即为零。这部分或多或少容易。
  • 但是价值和行动价值函数非常重要(记住它只考虑未来的奖励,而不是过去)。比如说,AAPL 的价格是 100 美元,考虑到未来的奖励是好是坏?你应该买还是卖?答案取决于政策...

    例如,代理可能会以某种方式了解到每次价格突然下降到 40 美元时,它很快就会恢复(听起来太傻了,这只是一个说明)。现在如果代理按照这个政策行事,40美元左右的价格是一个很好的状态,它的价值很高。同样,Q40 美元左右的操作价值对于“买入”来说很高,对于“卖出”来说很低。选择不同的策略,您将获得不同的价值和行动价值函数。研究人员试图分析股票历史并提出合理的策略,但没有人知道最佳策略。事实上,甚至没有人知道状态概率,只有他们的估计。这就是使任务真正困难的原因。

  • 这是非常彻底和超级有帮助的,非常感谢。 (2认同)