稳定基线3库中的“确定性= True”是什么意思?

Ami*_*adi 8 reinforcement-learning python-3.x stable-baselines

我正在尝试将稳定基线3库https://stable-baselines3.readthedocs.io/en/master/中的 PPO 算法应用到我制作的自定义环境中。

我不明白的一件事是下面这一行:

mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=10, deterministic=True)
Run Code Online (Sandbox Code Playgroud)

我应该始终让确定性等于 True 吗?当我保持确定性=“真”时,我的自定义环境“以某种方式”总是得到解决(即总是返回 1 +/- 0 标准的奖励)。

当我将其更改为“False”时,它开始以合理的方式表现(即有时会成功(奖励=1),有时会失败(奖励=0)。

Mik*_*ail 9

该参数对应于"Whether to use deterministic or stochastic actions". 所以问题是,当你根据给定状态选择一个动作时,actor_network会给你一个概率分布。例如,对于两个可能的操作a1a2 : [0.25, 0.75]。如果使用deterministic=True,结果将是动作a2,因为它的概率更大。在 的情况下deterministic=False,将以给定的概率选择结果动作[0.25, 0.75]