OpenAI 健身房：何时需要重置？

Question

OpenAI 健身房：何时需要重置？

Jua*_*eni 3 python machine-learning reinforcement-learning openai-gym

虽然我可以设法让示例和我自己的代码运行，但我对 OpenAI 健身房 API 背后的真实语义/期望更加好奇，尤其是 Env.reset()

什么时候需要重置？每集结尾？还是只有在创建环境之后？

我宁愿认为在每一集之前都是有道理的，但我无法明确地阅读！

Answer 1

Der*_*k_M 5

您通常在整个剧集后使用重置。所以这可能是在您达到 mdp 中的终端状态之后，或者在您达到最大时间步长（由您设置）之后。我通常也会在训练开始时重置它。

因此，如果您处于起始状态 'A' 并且想要到达状态 'Z'，您将运行从 'A' -> 'B' -> 'C' ... 开始的时间步骤，然后当您到达时终端状态“Z”，您使用重置开始新剧集，这将带您回到“A”。

    for episode in range(iterations):
        state = env.reset() // first state
        for time_step in range(1000):  //max amount of iterations
            action = take_action(state)
            state, reward, done, _ = env.step(action)
            if done:
                break // takes you to the next episode where the environment is reset

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，4 月前
查看次数：	2365 次
最近记录：	5 年，10 月前