Leb*_*oth 7 python artificial-intelligence machine-learning reinforcement-learning tensorflow
最近我一直在阅读很多关于神经网络Q学习的内容,并考虑更新电厂锅炉中现有的旧优化系统,该锅炉由简单的前馈神经网络组成,近似于许多感应输入的输出.然后输出链接到基于线性模型的控制器,该控制器以某种方式再次输出最佳动作,因此整个模型可以收敛到期望的目标.
识别线性模型是一项耗费任务.我考虑用Q函数的神经网络近似来将整个事物翻新为无模型Q学习.我画了一张图表,问你我是否在正确的轨道上.
我的问题:如果你认为我理解这个概念,我的训练集应该是State Features vectors从一方组成的Q_target - Q_current(这里我假设有越来越多的奖励),以便迫使整个模型朝向目标,或者我错过了什么?
注意:该图显示了上部旧系统与下部建议更改之间的比较.
编辑:状态神经网络是否保证体验重播?
| 归档时间: |
|
| 查看次数: |
221 次 |
| 最近记录: |