小编Vla*_*lik的帖子

Stable Baselines3 PPO() - 如何在训练期间更改 Clip_range 参数?

我想在 PPO 模型的整个训练过程中逐渐减小 Clip_range(epsilon、探索与利用参数)。

\n

我尝试简单地运行“model.clip_range = new_value”,但这不起作用。

\n

在此处的文档中,它说“clip_range (Union[float, Callable[[float], float]]) \xe2\x80\x93 剪辑参数,它可以是当前剩余进度的函数(从1到0)。 ”

\n

有谁知道如何在训练期间实际更改此参数,或者如何输入“当前剩余进度的函数”?

\n

reinforcement-learning stable-baselines

3
推荐指数
1
解决办法
1560
查看次数