Cer*_*rin 11 planning machine-learning reinforcement-learning
我读过的所有强化学习算法通常都应用于具有固定数量动作的单个代理.是否有任何强化学习算法用于在考虑可变数量的动作的情况下做出决定?例如,如何在玩家控制N名士兵的计算机游戏中应用RL算法,并且每名士兵根据其条件有随机数量的动作?你不能为全球决策者(即"将军")制定固定数量的行动,因为随着士兵的创建和杀戮,可用的行动会不断变化.而且你不能在士兵级别制定固定数量的行动,因为士兵的行动是基于其直接环境的条件.如果士兵看不到对手,那么它可能只能行走,而如果它看到10个对手,那么它有10个新的可能动作,攻击10个对手中的1个.
| 归档时间: |
|
| 查看次数: |
1506 次 |
| 最近记录: |