okk*_*hoy 5 reinforcement-learning q-learning
我正在使用基于 rlglue 的python-rl框架进行 q-learning。我的理解是,随着情节的发展,算法会收敛到一个最优策略(这是一个映射,说明在什么状态下采取什么行动)。
问题 1:这是否意味着经过若干集(比如 1000 集或更多)后,我应该基本上得到相同的状态:动作映射?
当我绘制奖励(或平均超过 100 集的奖励)时,我在此链接中得到类似于图 6.13 的图表。
问题 2:如果算法已经收敛到某个策略,为什么奖励会下降?奖励是否有可能发生巨大变化?
问题 3:是否有一些标准方法可以用来比较各种 RL 算法的结果?
Q1:它将收敛到单个映射,除非多个映射是最佳的。
Q2:Q-Learning 有一个探索参数,用于确定随机、可能次优移动的频率。只要该参数不为零,奖励就会波动。
Q3:奖励图表,如您提供的链接中所示。检查http://rl-community.org。
| 归档时间: |
|
| 查看次数: |
3836 次 |
| 最近记录: |