当动作不影响强化学习中的状态时，它叫什么？

Question

在强化学习中，是否有算法的名称，其中所采取的行动不会影响状态？例如武装匪徒

Answer 1

在 RL 设置中，武装匪徒被认为是无国籍的，因此行动自然不会影响状态。只有行动和奖励。

如果您添加一个状态，但操作对下一个状态没有影响，则它们称为Contextual Bandits。上下文强盗有状态、动作和奖励。您的状态（或“上下文”）可能会影响您的操作，但反过来不会，即没有像普通 RL 那样的转换规则。