nic*_*lul 2 machine-learning reinforcement-learning
在强化学习中,是否有算法的名称,其中所采取的行动不会影响状态?例如武装匪徒
Pan*_*eti 6
在 RL 设置中,武装匪徒被认为是无国籍的,因此行动自然不会影响状态。只有行动和奖励。
如果您添加一个状态,但操作对下一个状态没有影响,则它们称为Contextual Bandits。上下文强盗有状态、动作和奖励。您的状态(或“上下文”)可能会影响您的操作,但反过来不会,即没有像普通 RL 那样的转换规则。
归档时间:
7 年,5 月 前
查看次数:
234 次
最近记录: