Ale*_*man 12 terminology machine-learning reinforcement-learning markov-decision-process
我见过这样的话:
策略定义学习代理在给定时间的行为方式.粗略地说,政策是从感知的环境状态到在这些状态下要采取的行动的映射.
但还是没有完全明白.强化学习的政策究竟是什么?
Max*_*xim 20
这个定义是正确的,但如果你第一次看到这个定义就不会立即明显.让我这样说吧:政策是代理人的战略.
例如,想象一个机器人在房间内移动的世界,任务是到达目标点(x,y),在那里获得奖励.这里:
一个政策是代理人本身来完成这一任务是什么:
显然,有些政策比其他政策更好,有多种方法可以评估它们,即国家价值功能和行动价值功能.RL的目标是学习最好的政策.现在定义应该更有意义(注意在上下文中时间被更好地理解为状态):
策略定义学习代理在给定时间的行为方式.
更正式地,首先要确定马尔科夫决策过程(MDP),为元组(S,A,P,R,y),其中:
S 是一组有限的状态A 是一组有限的行动P 是状态转移概率矩阵(在每个当前状态和每个动作的状态下结束的概率)R 给定状态和动作是奖励功能y 是折扣因子,介于0和1之间然后,策略?是给定状态的动作的概率分布.当代理处于特定状态时,这是每次操作的可能性(当然,我在这里跳过很多细节).此定义对应于定义的第二部分.
我强烈推荐David Silver的RL课程在YouTube上提供.前两个讲座特别关注MDP和政策.
简而言之,在最简单的情况下,策略?是一种将状态作为输入s并返回action 的函数a。那是:?(s) ? a
以这种方式,代理通常使用该策略来决定a当它处于给定状态时应该执行什么动作s。
有时,该策略可能是随机的,而不是确定性的。在这种情况下,a策略将不返回唯一动作,而是返回一组动作的概率分布。
通常,任何RL算法的目标都是学习达到特定目标的最佳策略。
这是一个简洁的答案:政策是代理商的“思维”。这是您处于某种状态时的映射,代理现在应该采取什么s动作a?您可以将策略视为查找表:
state----action----probability/'goodness' of taking the action
1 1 0.6
1 2 0.4
2 1 0.3
2 2 0.7
Run Code Online (Sandbox Code Playgroud)
如果您处于状态1,则(假设是一个贪婪的策略)选择操作1。如果您处于状态2,则选择操作2。
| 归档时间: |
|
| 查看次数: |
16465 次 |
| 最近记录: |