相关疑难解决方法(0)

Q学习代理的学习率

问题学习率如何影响收敛速度和收敛本身.如果学习率是恒定的,Q函数会收敛到最优开启还是学习率必然会衰减以保证收敛？

machine-learning reinforcement-learning q-learning

udu*_*uck

lucky-day

5
推荐指数

1
解决办法

5184
查看次数

Q-Learning 值太高

我最近尝试在 Golang 中实现基本的 Q-Learning 算法。请注意，我对强化学习和人工智能总体来说是新手，所以这个错误很可能是我的。

\n\n

以下是我如何在 m,n,k 游戏环境中实现该解决方案：\n在每个给定时间t，代理持有最后一个状态动作(s, a)及其获得的奖励；代理a'根据 Epsilon 贪婪策略选择移动并计算奖励r，然后继续更新Q(s, a)时间的值t-1

\n\n

func (agent *RLAgent) learn(reward float64) {\n    var mState = marshallState(agent.prevState, agent.id)\n    var oldVal = agent.values[mState]\n\n    agent.values[mState] = oldVal + (agent.LearningRate *\n        (agent.prevScore + (agent.DiscountFactor * reward) - oldVal))\n}\n

Run Code Online (Sandbox Code Playgroud)\n\n

笔记：

\n\n