强化学习的政策是什么?

Ale*_*man 12 terminology machine-learning reinforcement-learning markov-decision-process

我见过这样的话:

策略定义学习代理在给定时间的行为方式.粗略地说,政策是从感知的环境状态到在这些状态下要采取的行动的映射.

但还是没有完全明白.强化学习的政策究竟是什么?

Max*_*xim 20

这个定义是正确的,但如果你第一次看到这个定义就不会立即明显.让我这样说吧:政策是代理人的战略.

例如,想象一个机器人在房间内移动的世界,任务是到达目标点(x,y),在那里获得奖励.这里:

  • 房间是一个环境
  • 机器人的当前位置是一个状态
  • 一个政策是代理人本身来完成这一任务是什么:

    • 愚蠢的机器人随意乱走,直到他们意外地到达正确的地方(政策#1)
    • 由于某种原因,其他人可能会学习沿着大部分路线前进(政策#2)
    • 聪明的机器人在他们的"头"中规划路线并直接进入目标(政策#3)

显然,有些政策比其他政策更好,有多种方法可以评估它们,即国家价值功能行动价值功能.RL的目标是学习最好的政策.现在定义应该更有意义(注意在上下文中时间被更好地理解为状态):

策略定义学习代理在给定时间的行为方式.

正式地

更正式地,首先要确定马尔科夫决策过程(MDP),为元组(S,A,P,R,y),其中:

  • S 是一组有限的状态
  • A 是一组有限的行动
  • P 是状态转移概率矩阵(在每个当前状态和每个动作的状态下结束的概率)
  • R 给定状态和动作是奖励功能
  • y 是折扣因子,介于0和1之间

然后,策略?是给定状态的动作的概率分布.当代理处于特定状态时,这是每次操作的可能性(当然,我在这里跳过很多细节).此定义对应于定义的第二部分.

我强烈推荐David Silver的RL课程在YouTube上提供.前两个讲座特别关注MDP和政策.


Pab*_* EM 6

简而言之,在最简单的情况下,策略?是一种将状态作为输入s并返回action 的函数a。那是:?(s) ? a

以这种方式,代理通常使用该策略来决定a当它处于给定状态时应该执行什么动作s

有时,该策略可能是随机的,而不是确定性的。在这种情况下,a策略将不返回唯一动作,而是返回一组动作的概率分布。

通常,任何RL算法的目标都是学习达到特定目标的最佳策略。


Mar*_*nov 5

这是一个简洁的答案:政策是代理商的“思维”。这是您处于某种状态时的映射,代理现在应该采取什么s动作a?您可以将策略视为查找表:

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7
Run Code Online (Sandbox Code Playgroud)

如果您处于状态1,则(假设是一个贪婪的策略)选择操作1。如果您处于状态2,则选择操作2。