小编Vla*_*lik的帖子

我想在 PPO 模型的整个训练过程中逐渐减小 Clip_range（epsilon、探索与利用参数）。

我尝试简单地运行“model.clip_range = new_value”，但这不起作用。

在此处的文档中，它说“clip_range (Union[float, Callable[[float], float]]) \xe2\x80\x93 剪辑参数，它可以是当前剩余进度的函数（从1到0）。 ”

有谁知道如何在训练期间实际更改此参数，或者如何输入“当前剩余进度的函数”？

3
推荐指数

1
解决办法

1560
查看次数

小编Vla_lik的帖子