GHE*_*GHE 4 policy deterministic reinforcement-learning stable-baselines
我们有一个自定义的强化学习环境,在其中我们从稳定的基线运行 PPO 代理来解决多动作选择问题。代理按预期进行学习,但当我们评估从训练有素的代理学到的策略时,当我们设置时,代理会获得更差的结果(即奖励降低约 50% deterministic=True)deterministic=False。这项研究的目标是为现实世界的问题找到新的政策,因此最好找到一种确定性的政策,因为这对大多数人来说更容易理解……而且更多的随机行动会带来更好的效果,这似乎违反直觉。表现。
文档只说“确定性(bool)\xe2\x80\x93是否返回确定性动作。\n我理解这意味着动作是从具有一定随机性的学习分布中得出的(即一个特定状态可以导致几种不同的动作)并且意味着这些动作完全基于学习的策略(即一种特定的状态总是导致一种特定的动作)。deterministic=Falsedeterministic=True
问题是当性能比deterministic=Falsewith更好时,它对代理和/或环境有何影响deterministic=True?
小智 6
在使随机代理成为确定性代理之前,您需要非常小心。这是因为他们可能无法实现某些目标。考虑以下具有 8 个状态的过于简化的示例:
| | # | | # | |
| X |---| G |---| X |
Run Code Online (Sandbox Code Playgroud)
“G”是球门,“X”是坑,“-”是墙。“#”状态不可能以确定性方式修复。例如,如果“#”处的策略被保留,那么从左上角的两个状态来看,代理将永远无法到达目标。随机策略的优势在于它们可以防止此类问题并让智能体找到实现目标的方法。
此外,操作的随机性应随着时间的推移而减少,以反映特定操作正确的确定性,但当然可能存在一些状态(例如上面的“#”)仍然存在显着的不确定性。
| 归档时间: |
|
| 查看次数: |
661 次 |
| 最近记录: |