小编drt_loe的帖子

Q-learning收敛的标准

我正在试验 Q-learning 算法。我已经从不同的来源阅读并理解了该算法，但是，似乎没有明确的数学支持的收敛标准。

大多数来源建议迭代多次（例如，N = 1000），而其他人则表示当所有状态和动作对 (s, a) 被无限频繁访问时实现收敛。但这里的问题是，多少是无限频繁。对于想要手动解决算法的人来说，最好的标准是什么？

如果有人能在这方面教育我，我将不胜感激。我也很感激任何有这种效果的文章。

问候。

algorithm artificial-intelligence machine-learning reinforcement-learning q-learning

3
推荐指数

1
解决办法

2337
查看次数

标签统计

artificial-intelligence ×1

machine-learning ×1

reinforcement-learning ×1