Aym*_*yma 7 reinforcement-learning
我很难弄清楚应该使用什么以及何时使用矢量化环境。如果您能提供一个用例示例,那就太好了。
SB3 中矢量化环境的文档: https://stable-baselines3.readthedocs.io/en/master/guide/vec_envs.html
矢量化环境是一种将多个独立环境堆叠到单个环境中的方法。它允许在每个步骤的多个环境中训练代理,而不是在每个步骤的 1 个环境上执行和训练代理。
通常你也希望这些环境有不同的种子,以便获得更多样化的经验。这对于加快训练速度非常有用。
我认为它们被称为“向量化”,因为每个训练步骤代理都会观察多个状态(插入向量中),输出多个动作(每个环境一个),这些动作插入向量中,并接收多个奖励。因此“矢量化”一词