观察意义 - OpenAI Gym

Question

观察意义 - OpenAI Gym

ryo*_*ryo 9 python machine-learning reinforcement-learning deep-learning openai-gym

我想知道CartPole-v0OpenAI Gym 中观察的规范（https://gym.openai.com/）。

例如，在以下代码中输出observation. 一种观察就像[-0.061586 -0.75893141 0.05793238 1.15547541]我想知道数字的含义。我想以任何方式知道其他的规范，Environments例如MountainCar-v0，MsPacman-v0等等。

我试图阅读https://github.com/openai/gym，但我不知道。你能告诉我知道规格的方法吗？

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break

Run Code Online (Sandbox Code Playgroud)

（来自https://gym.openai.com/docs）

输出如下

[-0.061586   -0.75893141  0.05793238  1.15547541]
[-0.07676463 -0.95475889  0.08104189  1.46574644]
[-0.0958598  -1.15077434  0.11035682  1.78260485]
[-0.11887529 -0.95705275  0.14600892  1.5261692 ]
[-0.13801635 -0.7639636   0.1765323   1.28239155]
[-0.15329562 -0.57147373  0.20218013  1.04977545]
Episode finished after 14 timesteps
[-0.02786724  0.00361763 -0.03938967 -0.01611184]
[-0.02779488 -0.19091794 -0.03971191  0.26388759]
[-0.03161324  0.00474768 -0.03443415 -0.04105167]

Run Code Online (Sandbox Code Playgroud)

Answer 1

小智 7

OpenAI Gym 中使用的观察空间与原始论文并不完全相同。查看 OpenAI 的wiki以找到答案。观察空间是一个4维空间，每个维度如下：

Num Observation Min Max 0 Cart Position -2.4 2.4 1 Cart Velocity -Inf Inf 2 Pole Angle ~ -41.8° ~ 41.8° 3 Pole Velocity At Tip -Inf Inf

Answer 2

Pab*_* EM 4

在 OpenAI Gym 网站中描述每个环境的段落之后，您总是有一个详细解释环境的参考，例如，CartPole-v0您可以在以下位置找到所有详细信息：

[Barto83] AG Barto、RS Sutton 和 CW Anderson，“可以解决困难学习控制问题的类神经元自适应元素”，IEEE 系统、人类和控制论汇刊，1983 年。

在那篇论文中，您可以读到车杆有四个状态变量：

小车在轨道上的位置
杆与垂直线的角度
车速度
角度变化率

因此，它observation只是一个具有四个状态变量值的向量。

同样，详细信息MountainCar-v0可以参见

[Moore90] 摩尔，机器人控制的基于高效内存的学习，博士论文，剑桥大学，1990 年。

等等。

归档时间：	9 年，4 月前
查看次数：	6875 次
最近记录：	8 年，10 月前