Neu*_*ise 5 artificial-intelligence reinforcement-learning
我无法理解SARSA算法:http: //en.wikipedia.org/wiki/SARSA
特别是,在更新Q值时,什么是gamma?什么值用于s(t + 1)和a(t + 1)?
有人可以向我解释这个算法吗?
谢谢.
Gamma 决定了您的算法有多少内存。如果你将其设置为0.0,那么你的算法将不会更新价值函数Q如果将其设置为 0.0,那么您的算法根本如果将其设置为 1.0,则新体验的权重将与之前所有体验的总和相同。最佳值介于两者之间,必须通过实验来确定。
\n\n下面是它的工作原理:
\n\n实际上,价值函数只是每个动作和每个状态的这些更新值的运行平均值。
\n| 归档时间: |
|
| 查看次数: |
2881 次 |
| 最近记录: |