强化学习的政策是什么？

Question

强化学习的政策是什么？

Ale*_*man 12 terminology machine-learning reinforcement-learning markov-decision-process

我见过这样的话:

策略定义学习代理在给定时间的行为方式.粗略地说,政策是从感知的环境状态到在这些状态下要采取的行动的映射.

但还是没有完全明白.强化学习的政策究竟是什么？

Answer 1

Max*_*xim 20

这个定义是正确的,但如果你第一次看到这个定义就不会立即明显.让我这样说吧:政策是代理人的战略.

例如,想象一个机器人在房间内移动的世界,任务是到达目标点(x,y),在那里获得奖励.这里:

房间是一个环境
机器人的当前位置是一个状态
一个政策是代理人本身来完成这一任务是什么:
- 愚蠢的机器人随意乱走,直到他们意外地到达正确的地方(政策#1)
- 由于某种原因,其他人可能会学习沿着大部分路线前进(政策#2)
- 聪明的机器人在他们的"头"中规划路线并直接进入目标(政策#3)

显然,有些政策比其他政策更好,有多种方法可以评估它们,即国家价值功能和行动价值功能.RL的目标是学习最好的政策.现在定义应该更有意义(注意在上下文中时间被更好地理解为状态):

策略定义学习代理在给定时间的行为方式.

正式地

更正式地,首先要确定马尔科夫决策过程(MDP),为元组(S,A,P,R,y),其中:

S 是一组有限的状态
A 是一组有限的行动
P 是状态转移概率矩阵(在每个当前状态和每个动作的状态下结束的概率)
R 给定状态和动作是奖励功能
y 是折扣因子,介于0和1之间

然后,策略?是给定状态的动作的概率分布.当代理处于特定状态时,这是每次操作的可能性(当然,我在这里跳过很多细节).此定义对应于定义的第二部分.

我强烈推荐David Silver的RL课程在YouTube上提供.前两个讲座特别关注MDP和政策.

Answer 2

Pab*_* EM 6

简而言之，在最简单的情况下，策略?是一种将状态作为输入s并返回action 的函数a。那是：?(s) ? a

以这种方式，代理通常使用该策略来决定a当它处于给定状态时应该执行什么动作s。

有时，该策略可能是随机的，而不是确定性的。在这种情况下，a策略将不返回唯一动作，而是返回一组动作的概率分布。

通常，任何RL算法的目标都是学习达到特定目标的最佳策略。

Answer 3

Mar*_*nov 5

这是一个简洁的答案：政策是代理商的“思维”。这是您处于某种状态时的映射，代理现在应该采取什么s动作a？您可以将策略视为查找表：

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7

Run Code Online (Sandbox Code Playgroud)

如果您处于状态1，则（假设是一个贪婪的策略）选择操作1。如果您处于状态2，则选择操作2。

归档时间：	8 年，4 月前
查看次数：	16465 次
最近记录：	6 年，3 月前