小编Ras_had的帖子

Q、V（价值函数）和强化学习中的奖励之间究竟有什么区别？

在 Double Q 或 Deuling Q Networks 的上下文中，我不确定我是否完全理解其中的区别。尤其是 V。V(s) 到底是什么？一个国家如何拥有固有的价值？

如果我们在股票交易的背景下考虑这一点，那么我们将如何定义这三个变量？

machine-learning reinforcement-learning q-learning deep-learning

2
推荐指数

1
解决办法

1841
查看次数

标签统计

deep-learning ×1

machine-learning ×1

reinforcement-learning ×1