强化学习还是监督学习?

Ali*_*Ali 1 reinforcement-learning supervised-learning

如果强化学习(RL)算法在现实世界中工作之前需要在模拟环境中进行大量迭代,为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法RL?

\n

Rui*_*ian 5

究其原因,是因为这两个领域有着本质的区别:

\n\n

一个试图复制以前的结果,另一个试图比以前的结果更好。

\n\n

机器学习有4个领域:

\n\n
    \n
  • 监督学习
  • \n
  • 无监督学习
  • \n
  • 半监督学习
  • \n
  • 强化学习
  • \n
\n\n

我们来谈谈您要求的两个领域,并通过现实生活中的射箭示例来直观地探索它们。

\n\n

监督学习

\n\n

对于监督学习,我们会观察一位弓箭手的动作大约一周,并记录他们拉弓弦的距离、射击角度等。然后我们回家建立一个模型。在最理想的情况下,我们的模型变得与弓箭手一样好它无法变得更好,因为监督学习中的损失函数通常是 MSE 或交叉熵,所以我们只是尝试复制特征标签映射。构建模型后,我们进行部署。这么说吧,我们特别喜欢让它在线学习。所以我们不断地从弓箭手大师那里获取数据,并不断学习,以达到与弓箭手大师一模一样的水平。

\n\n

最大的收获:

\n\n

我们试图复制弓箭手大师只是因为我们认为他是最好的。因此我们永远无法打败他。

\n\n

强化学习

\n\n

在强化学习中,我们只需构建一个模型并让它尝试许多不同的事情。我们根据箭离靶心的距离给予奖励/惩罚。 我们并不是试图复制任何行为,相反,我们试图找到自己的最佳行为。 正因为如此,我们对于我们认为的最佳拍摄策略没有任何偏见。

\n\n

由于 RL 没有任何先验知识,因此 RL 可能很难收敛于困难问题。因此,有一种称为学徒学习/模仿学习的方法,我们基本上给强化学习一些弓箭手的轨迹,这样它就可以有一个起点并开始收敛。但在那之后,强化学习有时会通过采取随机行动来探索,试图找到其他最优解决方案。 这是监督学习无法做到的。因为如果您探索使用监督学习,那么您基本上是在说在这种状态下采取此操作是最佳的。然后你尝试让你的模型复制它。 但这种情况在监督学习中是错误的,应该被视为数据中的异常值。

\n\n

监督学习与强化学习的主要区别:

\n\n
    \n
  • 监督学习复制已经做过的事情
  • \n
  • 强化学习可以探索状态空间,并执行随机动作。这使得强化学习有可能比当前最好的更好。
  • \n
\n\n
\n

为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是 RL

\n
\n\n

我们为深度强化学习这样做是因为它有一个经验重播缓冲区。但这对于监督学习来说是不可能的,因为缺乏奖励的概念。

\n\n

例:走迷宫。

\n\n

强化学习

\n\n

在方格 3 中向右移动:奖励 = 5

\n\n

在方格 3 中向左走:奖励 = 0

\n\n

在方格 3 中采取行动:奖励 = -5

\n\n

监督学习

\n\n

在方格 3 处右转

\n\n

在 3 号方格左转

\n\n

在方格 3 中采取行动

\n\n

当你尝试在第 3 格中做出决定时,RL 会知道该往右走。监督学习会很混乱,因为在一个例子中,你的数据说在方格 3 中向右走,第二个例子说向左走,第三个例子说向上。所以它永远不会收敛。

\n