小编Ras*_*had的帖子

Q、V(价值函数)和强化学习中的奖励之间究竟有什么区别?

在 Double Q 或 Deuling Q Networks 的上下文中,我不确定我是否完全理解其中的区别。尤其是 V。V(s) 到底是什么?一个国家如何拥有固有的价值?

如果我们在股票交易的背景下考虑这一点,那么我们将如何定义这三个变量?

machine-learning reinforcement-learning q-learning deep-learning

2
推荐指数
1
解决办法
1841
查看次数