我想在 PPO 模型的整个训练过程中逐渐减小 Clip_range(epsilon、探索与利用参数)。
\n我尝试简单地运行“model.clip_range = new_value”,但这不起作用。
\n在此处的文档中,它说“clip_range (Union[float, Callable[[float], float]]) \xe2\x80\x93 剪辑参数,它可以是当前剩余进度的函数(从1到0)。 ”
\n有谁知道如何在训练期间实际更改此参数,或者如何输入“当前剩余进度的函数”?
\n