Ali*_*Ali 1 reinforcement-learning supervised-learning
如果强化学习(RL)算法在现实世界中工作之前需要在模拟环境中进行大量迭代,为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法RL?
\n究其原因,是因为这两个领域有着本质的区别:
\n\n一个试图复制以前的结果,另一个试图比以前的结果更好。
\n\n机器学习有4个领域:
\n\n我们来谈谈您要求的两个领域,并通过现实生活中的射箭示例来直观地探索它们。
\n\n监督学习
\n\n对于监督学习,我们会观察一位弓箭手的动作大约一周,并记录他们拉弓弦的距离、射击角度等。然后我们回家建立一个模型。在最理想的情况下,我们的模型变得与弓箭手一样好。它无法变得更好,因为监督学习中的损失函数通常是 MSE 或交叉熵,所以我们只是尝试复制特征标签映射。构建模型后,我们进行部署。这么说吧,我们特别喜欢让它在线学习。所以我们不断地从弓箭手大师那里获取数据,并不断学习,以达到与弓箭手大师一模一样的水平。
\n\n最大的收获:
\n\n我们试图复制弓箭手大师只是因为我们认为他是最好的。因此我们永远无法打败他。
\n\n强化学习
\n\n在强化学习中,我们只需构建一个模型并让它尝试许多不同的事情。我们根据箭离靶心的距离给予奖励/惩罚。 我们并不是试图复制任何行为,相反,我们试图找到自己的最佳行为。 正因为如此,我们对于我们认为的最佳拍摄策略没有任何偏见。
\n\n由于 RL 没有任何先验知识,因此 RL 可能很难收敛于困难问题。因此,有一种称为学徒学习/模仿学习的方法,我们基本上给强化学习一些弓箭手的轨迹,这样它就可以有一个起点并开始收敛。但在那之后,强化学习有时会通过采取随机行动来探索,试图找到其他最优解决方案。 这是监督学习无法做到的。因为如果您探索使用监督学习,那么您基本上是在说在这种状态下采取此操作是最佳的。然后你尝试让你的模型复制它。 但这种情况在监督学习中是错误的,应该被视为数据中的异常值。
\n\n监督学习与强化学习的主要区别:
\n\n\n\n\n为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是 RL
\n
我们为深度强化学习这样做是因为它有一个经验重播缓冲区。但这对于监督学习来说是不可能的,因为缺乏奖励的概念。
\n\n例:走迷宫。
\n\n强化学习
\n\n在方格 3 中向右移动:奖励 = 5
\n\n在方格 3 中向左走:奖励 = 0
\n\n在方格 3 中采取行动:奖励 = -5
\n\n监督学习
\n\n在方格 3 处右转
\n\n在 3 号方格左转
\n\n在方格 3 中采取行动
\n\n当你尝试在第 3 格中做出决定时,RL 会知道该往右走。监督学习会很混乱,因为在一个例子中,你的数据说在方格 3 中向右走,第二个例子说向左走,第三个例子说向上。所以它永远不会收敛。
\n