小编GHE*_*GHE的帖子

强化学习确定性政策比非确定性政策更糟糕

我们有一个自定义的强化学习环境,在其中我们从稳定的基线运行 PPO 代理来解决多动作选择问题。代理按预期进行学习,但当我们评估从训练有素的代理学到的策略时,当我们设置时,代理会获得更差的结果(即奖励降低约 50% deterministic=Truedeterministic=False。这项研究的目标是为现实世界的问题找到新的政策,因此最好找到一种确定性的政策,因为这对大多数人来说更容易理解……而且更多的随机行动会带来更好的效果,这似乎违反直觉。表现。

\n

文档只说“确定性(bool)\xe2\x80\x93是否返回确定性动作。\n我理解这意味着动作是从具有一定随机性的学习分布中得出的(即一个特定状态可以导致几种不同的动作)并且意味着这些动作完全基于学习的策略(即一种特定的状态总是导致一种特定的动作)。deterministic=Falsedeterministic=True

\n

问题是当性能比deterministic=Falsewith更好时,它对代理和/或环境有何影响deterministic=True

\n

policy deterministic reinforcement-learning stable-baselines

4
推荐指数
1
解决办法
661
查看次数