我们有一个自定义的强化学习环境,在其中我们从稳定的基线运行 PPO 代理来解决多动作选择问题。代理按预期进行学习,但当我们评估从训练有素的代理学到的策略时,当我们设置时,代理会获得更差的结果(即奖励降低约 50% deterministic=True)deterministic=False。这项研究的目标是为现实世界的问题找到新的政策,因此最好找到一种确定性的政策,因为这对大多数人来说更容易理解……而且更多的随机行动会带来更好的效果,这似乎违反直觉。表现。
文档只说“确定性(bool)\xe2\x80\x93是否返回确定性动作。\n我理解这意味着动作是从具有一定随机性的学习分布中得出的(即一个特定状态可以导致几种不同的动作)并且意味着这些动作完全基于学习的策略(即一种特定的状态总是导致一种特定的动作)。deterministic=Falsedeterministic=True
问题是当性能比deterministic=Falsewith更好时,它对代理和/或环境有何影响deterministic=True?
policy deterministic reinforcement-learning stable-baselines