小编Jac*_*kAW的帖子

我已经在Python中为简单的Markov决策过程Wikipedia实现了值迭代算法.为了保持特定马尔可夫过程的结构(状态,动作,转换,奖励)并迭代它,我使用了以下数据结构:

我的问题是:这是正确的方法吗？MDP最适合的数据结构(在Python中)是什么？

11
推荐指数

2
解决办法

7656
查看次数

小编Jac_kAW的帖子