RL 代理的批评损失

Kau*_*aus 1 artificial-intelligence reinforcement-learning

当我为各种问题实施代理时……我已经看到我的演员损失正在按预期减少。但是即使学到的策略非常好,我的评论家损失也一直在增加。这发生在 DDPG 、 PPO 等。

为什么我的评论家损失在增加的任何想法。

我尝试使用超参数,它实际上使我的策略变得更糟。

Den*_*ers 5

在强化学习中,您通常不应该关注损失值的精确值。它们的信息量与它们在例如监督学习中的意义不同。损失值应该只用于计算你的 RL 方法的正确更新,但它们实际上并没有给你任何关于你做得多好或多差的真实指示。

这是因为在 RL 中,您的学习目标通常是不稳定的;它们通常是您正在修改的策略的函数(希望改进!)。很有可能,随着 RL 代理的性能提高,您的损失实际上会增加。由于它的改进,它可能会发现其搜索空间的新部分,从而导致您的代理之前完全没有注意到的新目标值。

您唯一真正可靠的指标是代理在评估运行中收集的回报。