在 Double Q 或 Deuling Q Networks 的上下文中,我不确定我是否完全理解其中的区别。尤其是 V。V(s) 到底是什么?一个国家如何拥有固有的价值?
如果我们在股票交易的背景下考虑这一点,那么我们将如何定义这三个变量?
machine-learning reinforcement-learning q-learning deep-learning
deep-learning ×1
machine-learning ×1
q-learning ×1
reinforcement-learning ×1