我见过这样的话:
策略定义学习代理在给定时间的行为方式.粗略地说,政策是从感知的环境状态到在这些状态下要采取的行动的映射.
但还是没有完全明白.强化学习的政策究竟是什么?
terminology machine-learning reinforcement-learning markov-decision-process
machine-learning ×1
markov-decision-process ×1
reinforcement-learning ×1
terminology ×1