为什么 RMSProp 被认为是“泄漏”?

sti*_*tes 1 gradient artificial-intelligence machine-learning reinforcement-learning

decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2
Run Code Online (Sandbox Code Playgroud)

我对上面的评论措辞感到困惑,他们谈论了 RMSProp 优化器的“泄漏”平方和。到目前为止,我已经发现这一行是从 Andrej Karpathy 的深度强化学习:Pong from Pixels中复制粘贴的,而 RMSProp 是Hinton 在他的 Coursera 课程之一中提出的未发布的优化器。查看链接 2中 RMSProp 的数学计算,很难弄清楚其中任何一个是如何“泄漏”的。

有人知道为什么 RMSProp 是这样描述的吗?

lej*_*lot 5

RMsprop 保持梯度平方的指数衰减平均值。“泄漏”的措辞(无论多么不幸)是指先前的估计有多少“泄漏”到当前的估计,因为

E[g^2]_t := 0.99 E[g^2]_{t-1} + 0.01 g^2_t
            \_______________/   \________/
               "leaking"         new data 
Run Code Online (Sandbox Code Playgroud)