小编Jac*_*kAW的帖子

马尔可夫决策过程的数据结构

我已经在Python中为简单的Markov决策过程Wikipedia实现了值迭代算法.为了保持特定马尔可夫过程的结构(状态,动作,转换,奖励)并迭代它,我使用了以下数据结构:

  1. 可用于这些状态的状态和操作的字典:

    SA = { 'state A': {' action 1', 'action 2', ..}, ...}

  2. 转换概率字典:

    T = {('state A', 'action 1'): {'state B': probability}, ...}

  3. 奖励词典:

    R = {('state A', 'action 1'): {'state B': reward}, ...}.

我的问题是:这是正确的方法吗?MDP最适合的数据结构(在Python中)是什么?

python artificial-intelligence markov

11
推荐指数
2
解决办法
7656
查看次数

标签 统计

artificial-intelligence ×1

markov ×1

python ×1