折扣因子的完整含义是什么?强化学习中的(gamma)?

Ada*_*rst 2 machine-learning reinforcement-learning q-learning

我对机器学习概念相对较新,并且我一直在关注一些涉及 Q-Learning 的讲座/教程,例如:斯坦福大学关于强化学习的讲座

他们都对伽玛在政策函数中的效用到底是什么给出了简短或模糊的答案。迄今为止我发现的最容易理解的解释是“我们多么重视未来的回报”。

真的有那么简单吗?伽玛是否定义了我们如何延迟奖励/展望未来?比如下例中知道采取B选项:

如果有两个选项 A 和 B,A 将立即支付 10,然后再支付 10,而 B 将立即支付 0,然后再支付 30。

所以,我的问题是:

  1. 伽玛的深层解释是什么?
  2. 我们如何设置呢?
  3. 如果不是为了向前看,我们如何向前看?

Bre*_*ghe 8

gamma 参数确实用于说明您如何评估未来的奖励。更详细地说,您的折扣奖励(用于培训)如下所示:

折扣奖励:

这意味着指数函数决定如何考虑未来的奖励。作为示例,让我们比较 2 个伽玛值:

伽马= 0.9

伽马= 0.99

让我们看看 gamma**steps 何时达到 0.5。在 gamma = 0.9 的情况下,这是 6 个步骤。当 gamma = 0.99 时,它更像是 60 步左右。这意味着,对于 gamma = 0.9,6 个步骤中的奖励的重要性是直接奖励的一半,但对于 gamma = 0.99,同样对于 60 个步骤有效。因此,当 gamma = 0.99 时,下降幅度要小得多,并且未来的奖励比 gamma = 0.9 时的价值更高。要设置应用程序所需的伽马参数,重要的是要对您的环境中需要多少步骤才能获得奖励有某种感觉。

回到你的选项 A 和 B。A 应该具有较低的 gamma 值,因为即时奖励非常重要。选项 B 应该有更高的 gamma 值,因为奖励是未来的。