我正在从连续状态空间的离散化过渡到函数逼近。我的动作和状态空间(3D)都是连续的。我的问题主要是由于混叠导致的错误,并且在长时间训练后几乎没有收敛。此外,我无法弄清楚如何为离散化选择正确的步长。
阅读 Sutton & Barto 帮助我理解了瓦片编码的力量,即具有由多个相互重叠的受侵扰瓦片描述的状态空间。给定一个连续的查询/状态,它由 N 个基函数描述,每个基函数对应于它所属的纵横交错的单个块/正方形。
1) 性能与高度离散的状态空间有何不同?
2)任何人都可以指点我在python中使用tile编码的工作示例吗?我同时学习了太多东西并且变得超级困惑!(Q 学习、离散化困境、瓦片编码、函数逼近和处理问题本身)
对于 RL 中的连续问题,似乎没有任何详尽的 Python 编码教程。
python artificial-intelligence machine-learning reinforcement-learning