小编GHE*_*GHE的帖子

强化学习确定性政策比非确定性政策更糟糕

我们有一个自定义的强化学习环境，在其中我们从稳定的基线运行 PPO 代理来解决多动作选择问题。代理按预期进行学习，但当我们评估从训练有素的代理学到的策略时，当我们设置时，代理会获得更差的结果（即奖励降低约 50% deterministic=True）deterministic=False。这项研究的目标是为现实世界的问题找到新的政策，因此最好找到一种确定性的政策，因为这对大多数人来说更容易理解……而且更多的随机行动会带来更好的效果，这似乎违反直觉。表现。

文档只说“确定性（bool）\xe2\x80\x93是否返回确定性动作。\n我理解这意味着动作是从具有一定随机性的学习分布中得出的（即一个特定状态可以导致几种不同的动作）并且意味着这些动作完全基于学习的策略（即一种特定的状态总是导致一种特定的动作）。deterministic=Falsedeterministic=True

\n
问题是当性能比deterministic=Falsewith更好时，它对代理和/或环境有何影响deterministic=True？
\n

policy deterministic reinforcement-learning stable-baselines

GHE*_*GHE

lucky-day

4
推荐指数

1
解决办法

661
查看次数

标签统计

deterministic ×1

policy ×1

reinforcement-learning ×1

stable-baselines ×1

强化学习确定性政策比非确定性政策更糟糕

标签 统计

小编GHE_GHE的帖子

标签统计