Q学习如何与强化学习中的价值迭代不同?我知道Q学习是无模型的,训练样本是过渡(s, a, s', r).但是,既然我们知道Q学习中每次转换的过渡和奖励,那么它与基于模型的学习不同,我们知道状态和动作对的奖励,以及来自州的每个动作的转换(无论如何)随机的还是确定的)?我不明白其中的区别.
(s, a, s', r)
artificial-intelligence machine-learning reinforcement-learning q-learning
artificial-intelligence ×1
machine-learning ×1
q-learning ×1
reinforcement-learning ×1