tun*_*nuz 6 reinforcement-learning neural-network
我打算使用神经网络逼近强化学习算法中的值函数.我想这样做是为了介绍我如何表示状态和行为的一些概括和灵活性.
现在,我认为神经网络是正确的工具,但是由于我不是AI专家,因此我的可见度有限.特别是,现在似乎神经网络正在被其他技术所取代,例如支持向量机,但我不确定这是时尚问题,还是神经网络中存在一些真正的限制可能会影响我的方法.你有什么建议吗?
谢谢,
Tunnuz
确实,神经网络不再像以前那样流行,但它们还没有消亡。它们失宠的一般原因是支持向量机的兴起,因为它们全局收敛并且需要更少的参数规范。
然而,SVM 的实现非常繁琐,并且不能像 ANN 那样自然地推广到强化学习(SVM 主要用于离线决策问题)。
如果您的任务适合,我建议您坚持使用人工神经网络,因为在强化学习领域,人工神经网络在性能方面仍然处于领先地位。
这是一个很好的起点;只需查看标题为“时间差异学习”的部分,因为这是人工神经网络解决强化学习问题的标准方法。
但需要注意的是:机器学习的最新趋势是通过bagging 或 boosting一起使用许多不同的学习代理。虽然我在强化学习中没有看到太多这种情况,但我确信采用这种策略仍然比单独的人工神经网络更强大。但除非你真的需要世界级的性能(这就是赢得 Netflix 竞赛的原因),否则我会避开这种极其复杂的技术。