强化学习还是监督学习？

Question

强化学习还是监督学习？

Ali*_*Ali 1 reinforcement-learning supervised-learning

如果强化学习（RL）算法在现实世界中工作之前需要在模拟环境中进行大量迭代，为什么我们不使用相同的模拟环境来生成标记数据，然后使用监督学习方法RL？

\n

Answer 1

Rui*_*ian 5

究其原因，是因为这两个领域有着本质的区别：

\n\n

一个试图复制以前的结果，另一个试图比以前的结果更好。

\n\n

机器学习有4个领域：

\n\n

监督学习
无监督学习
半监督学习
强化学习

\n\n

我们来谈谈您要求的两个领域，并通过现实生活中的射箭示例来直观地探索它们。

\n\n

监督学习

\n\n

对于监督学习，我们会观察一位弓箭手的动作大约一周，并记录他们拉弓弦的距离、射击角度等。然后我们回家建立一个模型。在最理想的情况下，我们的模型变得与弓箭手一样好。它无法变得更好，因为监督学习中的损失函数通常是 MSE 或交叉熵，所以我们只是尝试复制特征标签映射。构建模型后，我们进行部署。这么说吧，我们特别喜欢让它在线学习。所以我们不断地从弓箭手大师那里获取数据，并不断学习，以达到与弓箭手大师一模一样的水平。

\n\n

最大的收获：

\n\n

我们试图复制弓箭手大师只是因为我们认为他是最好的。因此我们永远无法打败他。

\n\n

强化学习

\n\n

在强化学习中，我们只需构建一个模型并让它尝试许多不同的事情。我们根据箭离靶心的距离给予奖励/惩罚。 我们并不是试图复制任何行为，相反，我们试图找到自己的最佳行为。 正因为如此，我们对于我们认为的最佳拍摄策略没有任何偏见。

\n\n

由于 RL 没有任何先验知识，因此 RL 可能很难收敛于困难问题。因此，有一种称为学徒学习/模仿学习的方法，我们基本上给强化学习一些弓箭手的轨迹，这样它就可以有一个起点并开始收敛。但在那之后，强化学习有时会通过采取随机行动来探索，试图找到其他最优解决方案。 这是监督学习无法做到的。因为如果您探索使用监督学习，那么您基本上是在说在这种状态下采取此操作是最佳的。然后你尝试让你的模型复制它。 但这种情况在监督学习中是错误的，应该被视为数据中的异常值。

\n\n

监督学习与强化学习的主要区别：

\n\n

监督学习复制已经做过的事情
强化学习可以探索状态空间，并执行随机动作。这使得强化学习有可能比当前最好的更好。

\n\n

\n
为什么我们不使用相同的模拟环境来生成标记数据，然后使用监督学习方法而不是 RL
\n

\n\n

我们为深度强化学习这样做是因为它有一个经验重播缓冲区。但这对于监督学习来说是不可能的，因为缺乏奖励的概念。

\n\n

例：走迷宫。

\n\n

强化学习

\n\n

在方格 3 中向右移动：奖励 = 5

\n\n

在方格 3 中向左走：奖励 = 0

\n\n

在方格 3 中采取行动：奖励 = -5

\n\n

监督学习

\n\n

在方格 3 处右转

\n\n

在 3 号方格左转

\n\n

在方格 3 中采取行动

\n\n

当你尝试在第 3 格中做出决定时，RL 会知道该往右走。监督学习会很混乱，因为在一个例子中，你的数据说在方格 3 中向右走，第二个例子说向左走，第三个例子说向上。所以它永远不会收敛。

\n

归档时间：	7 年前
查看次数：	1032 次
最近记录：	4 年，3 月前