Q-Learning 收敛到最优策略

Question

我正在使用基于 rlglue 的python-rl框架进行 q-learning。我的理解是，随着情节的发展，算法会收敛到一个最优策略（这是一个映射，说明在什么状态下采取什么行动）。

问题 1：这是否意味着经过若干集（比如 1000 集或更多）后，我应该基本上得到相同的状态：动作映射？

当我绘制奖励（或平均超过 100 集的奖励）时，我在此链接中得到类似于图 6.13 的图表。

问题 2：如果算法已经收敛到某个策略，为什么奖励会下降？奖励是否有可能发生巨大变化？

问题 3：是否有一些标准方法可以用来比较各种 RL 算法的结果？

Answer 1

Q1：它将收敛到单个映射，除非多个映射是最佳的。

Q2：Q-Learning 有一个探索参数，用于确定随机、可能次优移动的频率。只要该参数不为零，奖励就会波动。

Q3：奖励图表，如您提供的链接中所示。检查http://rl-community.org。