使用神经网络将旧系统更新为Q学习

Leb*_*oth 7 python artificial-intelligence machine-learning reinforcement-learning tensorflow

最近我一直在阅读很多关于神经网络Q学习的内容,并考虑更新电厂锅炉中现有的旧优化系统,该锅炉由简单的前馈神经网络组成,近似于许多感应输入的输出.然后输出链接到基于线性模型的控制器,该控制器以某种方式再次输出最佳动作,因此整个模型可以收敛到期望的目标.

识别线性模型是一项耗费任务.我考虑用Q函数的神经网络近似来将整个事物翻新为无模型Q学习.我画了一张图表,问你我是否在正确的轨道上.

模型

我的问题:如果你认为我理解这个概念,我的训练集应该是State Features vectors从一方组成的Q_target - Q_current(这里我假设有越来越多的奖励),以便迫使整个模型朝向目标,或者我错过了什么?

注意:该图显示了上部旧系统与下部建议更改之间的比较.

编辑:状态神经网络是否保证体验重播?

xtt*_*xtt 1

您可能只使用当前状态下所有动作的所有 Q 值作为网络中的输出层。这里有一张画得不好的图表

因此,您可以利用 NN 一次输出多个 Q 值的能力。然后,只需使用由 导出的损失进行反向传播Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a),其中max(Q(s', a'))可以从输出层轻松计算。

如果您还有其他问题,请告诉我。