小编wan*_*erd的帖子

函数逼近:瓦片编码与高度离散的状态空间有何不同?

我正在从连续状态空间的离散化过渡到函数逼近。我的动作和状态空间(3D)都是连续的。我的问题主要是由于混叠导致的错误,并且在长时间训练后几乎没有收敛。此外,我无法弄清楚如何为离散化选择正确的步长。

阅读 Sutton & Barto 帮助我理解了瓦片编码的力量,即具有由多个相互重叠的受侵扰瓦片描述的状态空间。给定一个连续的查询/状态,它由 N 个基函数描述,每个基函数对应于它所属的纵横交错的单个块/正方形。

1) 性能与高度离散的状态空间有何不同?

2)任何人都可以指点我在python中使用tile编码的工作示例吗?我同时学习了太多东西并且变得超级困惑!(Q 学习、离散化困境、瓦片编码、函数逼近和处理问题本身)

对于 RL 中的连续问题,似乎没有任何详尽的 Python 编码教程。

python artificial-intelligence machine-learning reinforcement-learning

7
推荐指数
2
解决办法
2721
查看次数