如何将强化学习应用于连续动作空间？

Question

我正在尝试让代理人学习在强化学习环境中最好地执行某些任务所必需的鼠标移动(即奖励信号是学习的唯一反馈).

我希望使用Q学习技术,但是当我找到一种方法将这种方法扩展到连续状态空间时,我似乎无法弄清楚如何适应连续动作空间的问题.

我可以强迫所有鼠标移动到一定幅度并且只在一定数量的不同方向上移动,但是使动作离散的任何合理方式都会产生巨大的动作空间.由于标准Q学习需要代理评估所有可能的动作,因此这种近似并不能解决任何实际意义上的问题.

Answer 1

时间很快到了今年,从DeepMind人提出了处理一个深刻的强化学习演员评论家方法都连续状态和行为空间.它基于一种称为确定性政策梯度的技术.请参阅文章连续控制与深度强化学习和一些实现.

是的,他们确实推广了强化学习 - 现在有很多方法可以处理持续的行动!我认为最相关的是具有归一化优势函数的Q学习,因为它的核心是相同的q学习算法.它只是强制动作值为二次形式,您可以从中分析得到贪婪的动作.https://arxiv.org/pdf/1603.00748.pdf (4认同)

Answer 2

有许多方法可以将强化学习扩展到持续的行动.一种方法是使用演员评论方法.另一种方法是使用策略梯度方法.

可以在以下论文中找到对不同方法的相当广泛的解释,该论文可在线获得: 连续状态和动作空间中的强化学习(由Hado van Hasselt和Marco A. Wiering提供).

Answer 3

处理这个问题的常用方法是使用演员评论方法.这些自然延伸到连续动作空间.在使用近似值时,基本的Q学习可能会有所不同,但是,如果您仍然想要使用它,您可以尝试将其与自组织地图相结合,如"自组织地图应用到强化学习"中所做的那样.本文还包含一些您可能会发现有用的参考资料.

Answer 4

对于你正在做的事情，我认为你不需要在连续的行动空间中工作。尽管物理鼠标在连续空间中移动，但在内部光标仅以离散步长（通常在像素级别）移动，因此获得高于此阈值的任何精度似乎不会对您的代理的性能产生任何影响。状态空间仍然很大，但它是有限的和离散的。