标签: markov-decision-process

强化学习的政策是什么?

我见过这样的话:

策略定义学习代理在给定时间的行为方式.粗略地说,政策是从感知的环境状态到在这些状态下要采取的行动的映射.

但还是没有完全明白.强化学习的政策究竟是什么?

terminology machine-learning reinforcement-learning markov-decision-process

12
推荐指数
3
解决办法
2万
查看次数