我试图在Python中设计迭代马尔可夫决策过程(MDP)代理,具有以下特征:
因此,基本思想是MDP应该使用其当前概率模型在T处进行其最佳猜测优化移动(并且由于其概率,它所做的移动预期随机性暗示可能的随机性),将T + 1处的新输入状态与奖励耦合从之前的T移动并重新评估模型.收敛不能是永久性的,因为奖励可能会调整或可用的行动可能会改变.
我想知道的是,是否有任何当前的python库(最好是跨平台,因为我必须改变Windoze和Linux之间的环境)可以做这种事情(或者可以通过合适的自定义来支持它,例如:派生类支持,允许重新定义说自己的奖励方法).
我发现有关在线移动MDP学习的信息相当稀少.我能找到的MDP的大多数使用似乎都集中在将整个策略作为预处理步骤来解决.