如何解释 TensorBoard 中的“价值损失”图表?

Phi*_*sen 3 machine-learning unity-game-engine tensorflow tensorboard

我在 Unity 机器学习代理中拥有一架寻找目标、避障的直升机。查看我的训练 TensorBoard,我试图了解如何解释“损失/价值损失”。

在此输入图像描述

我在谷歌上搜索了很多关于 ML Loss 的文章,比如这篇,但我似乎还无法直观地理解这对我的小直升机意味着什么,以及我应该实施的可能的改变(如果有的话)。(直升机因一次又一次接近目标而受到奖励,并因进一步或碰撞而受到惩罚。它测量各种参数,如相对速度、相对目标位置、射线传感器等,并且它基本上在目标中工作-寻找,而更复杂的迷宫类型障碍尚未经过测试或训练。它使用 3 层。)谢谢!

Ruz*_*ihm 6

在强化学习中,特别是在参与者/批评者算法中,价值损失是学习算法对状态值的期望经验观察值之间的差异(或许多此类差异的平均值)该状态的

国家的价值是什么?简而言之,一个状态的价值就是你从该状态开始可以期待多少奖励。即时奖励完全占此金额。可能发生但不会立即发生的奖励贡献会越来越少,而且越遥远的事件贡献也会越来越少。我们把这种对价值贡献的减少称为“折扣”,或者我们说这些奖励是“打折的”。

期望值是算法的关键部分预测该值的程度。对于作为神经网络实现的批评家来说,它是神经网络的输出,状态作为其输入。

经验观察值是当您将离开该状态时实际获得的奖励加上您在一定步数之后立即获得的任何奖励(折扣一定金额)时获得的金额(我们会在这些步骤之后说)您最终进入状态 X 的步骤),以及(可能取决于实现)加上基于状态 X 的值的一些折扣金额。

简而言之,它越小,它就越能更好地预测其性能。这并不意味着它在玩游戏方面会变得更好 - 毕竟,如果一个人学会选择会让他们很快输掉的行动,那么他可能在一场游戏中很糟糕,但能够准确预测他们会输以及何时会输!