小编wan*_*erd的帖子

我正在从连续状态空间的离散化过渡到函数逼近。我的动作和状态空间（3D）都是连续的。我的问题主要是由于混叠导致的错误，并且在长时间训练后几乎没有收敛。此外，我无法弄清楚如何为离散化选择正确的步长。

阅读 Sutton & Barto 帮助我理解了瓦片编码的力量，即具有由多个相互重叠的受侵扰瓦片描述的状态空间。给定一个连续的查询/状态，它由 N 个基函数描述，每个基函数对应于它所属的纵横交错的单个块/正方形。

1) 性能与高度离散的状态空间有何不同？

2）任何人都可以指点我在python中使用tile编码的工作示例吗？我同时学习了太多东西并且变得超级困惑！（Q 学习、离散化困境、瓦片编码、函数逼近和处理问题本身）

对于 RL 中的连续问题，似乎没有任何详尽的 Python 编码教程。

7
推荐指数

2
解决办法

2721
查看次数

小编wan_erd的帖子