RL 代理的批评损失

Question

当我为各种问题实施代理时……我已经看到我的演员损失正在按预期减少。但是即使学到的策略非常好，我的评论家损失也一直在增加。这发生在 DDPG 、 PPO 等。

为什么我的评论家损失在增加的任何想法。

我尝试使用超参数，它实际上使我的策略变得更糟。

Answer 1

在强化学习中，您通常不应该关注损失值的精确值。它们的信息量与它们在例如监督学习中的意义不同。损失值应该只用于计算你的 RL 方法的正确更新，但它们实际上并没有给你任何关于你做得多好或多差的真实指示。

这是因为在 RL 中，您的学习目标通常是不稳定的；它们通常是您正在修改的策略的函数（希望改进！）。很有可能，随着 RL 代理的性能提高，您的损失实际上会增加。由于它的改进，它可能会发现其搜索空间的新部分，从而导致您的代理之前完全没有注意到的新目标值。

您唯一真正可靠的指标是代理在评估运行中收集的回报。