小编Bri*_*ack的帖子

我试图在Python中设计迭代马尔可夫决策过程(MDP)代理,具有以下特征:

可观察的状态
- 我通过保留一些状态空间来回答DP所做的查询类型移动来处理潜在的"未知"状态(t + 1处的状态将识别先前的查询[或者如果之前的移动不是查询则为零]以及嵌入式结果向量)此空间用0填充到固定长度,以保持状态帧对齐,无论查询是否应答(其数据长度可能不同)
所有州可能并不总是可以采取的行动
奖励功能可能随时间而变化
政策融合应该是增量的,只能按行动计算

因此,基本思想是MDP应该使用其当前概率模型在T处进行其最佳猜测优化移动(并且由于其概率,它所做的移动预期随机性暗示可能的随机性),将T + 1处的新输入状态与奖励耦合从之前的T移动并重新评估模型.收敛不能是永久性的,因为奖励可能会调整或可用的行动可能会改变.

我想知道的是,是否有任何当前的python库(最好是跨平台,因为我必须改变Windoze和Linux之间的环境)可以做这种事情(或者可以通过合适的自定义来支持它,例如:派生类支持,允许重新定义说自己的奖励方法).

我发现有关在线移动MDP学习的信息相当稀少.我能找到的MDP的大多数使用似乎都集中在将整个策略作为预处理步骤来解决.

8
推荐指数

1
解决办法

1907
查看次数