OpenAI Gym:了解`action_space`符号(spaces.Box)

Tok*_*rby 13 reinforcement-learning openai-gym

我想在OpenAI CarRacing-v0环境中设置RL代理,但在此之前我想了解动作空间.在github上的代码中, 119行说:

self.action_space = spaces.Box( np.array([-1,0,0]), np.array([+1,+1,+1]))  # steer, gas, brake
Run Code Online (Sandbox Code Playgroud)

我该如何阅读这一行?虽然我的问题是具体的,但CarRacing-v0我想了解spaces.Box()一般的符号

Tok*_*rby 18

Box 意味着您正在处理实际价值数量.

第一个数组np.array([-1,0,0]是最低可接受值,第二个数组是np.array([+1,+1,+1])最高可接受值.在这种情况下(使用评论),我们看到我们有3个动作:

  1. 转向:真正有价值的[-1, 1]
  2. 天然气:真正有价值的[0, 1]
  3. 休息:真正有价值的[0, 1]