增强学习以获取连续的状态和动作空间

mau*_*omi 1 python artificial-intelligence machine-learning reinforcement-learning

问题

我的目标是应用强化学习来预测物体在3D环境下处于已知力下的下一个状态(该方法将简化为监督学习,离线学习)。

我的方法的细节

当前状态是代表物体在环境中的位置(3维)和物体的速度(3维)的向量。起始位置以及起始速度在环境中被随机初始化。

动作是代表从状态t到状态t + 1的运动的向量。

奖励只是预测的下一个状态与实际的下一个状态(我已经有了目标位置)之间的欧几里得距离。

到目前为止,我做了什么?

我一直在寻找许多方法来做到这一点。深度确定性策略梯度适用于连续的操作空间,但就我而言,我也具有连续的状态空间。如果您对此方法感兴趣,请参考DeepMind上的原始文章:http//proceedings.mlr.press/v32/silver14.pdf

演员,评论家方法应该可行,但它通常是(或总是)应用于离散和低维状态空间。

Q-LearningDeep-Q Learning无法处理高维状态空间,因此即使离散化状态空间,我的配置也无法使用。

逆向强化学习(模仿学习的一个实例,具有行为克隆直接策略学习)可以在发现奖励功能比查找策略功能复杂时近似奖励功能。有趣的方法,但是我还没有看到任何实现,对于我来说,奖励功能非常简单。有没有可以解决我的配置问题的方法?

Rui*_*ian 5

在您的问题中,我相信可能会有很多困惑和误解。

  1. 首先,深度确定性策略梯度(DDPG)绝对可以处理连续的状态和动作。它之所以如此著名仅是因为它。而且,它是有史以来第一个稳定的架构。另外,您链接的纸张实际上是DPG,而不是DDPG。但是,DDPG和DPG都可以处理连续的状态和动作,但是后者更加不稳定。该论文实际上是由我在UofA的“高级”发表的。这是DDPG的链接:https ://arxiv.org/pdf/1509.02971.pdf 。

  2. 批评演员的RL不是算法,而是一系列RL算法,其中演员将状态映射到动作,而评论家则“预处理”反馈信号,以便演员可以更有效地学习它。DDPG是演员评判机构的一个例子。在DDPG中,DQN用作批注者,以对确定性策略梯度(参与者)的反馈信号进行预处理。

  3. Q学习和深度Q学习也是RL算法家族。鉴于计算能力不足,Q学习当然不能处理高状态空间,但是,深度Q学习当然可以。深度Q网络就是一个例子。

回到原来的问题。

我几乎可以保证您可以使用DDPG解决您的问题。实际上,DDPG仍然是可用于在连续状态,连续动作空间中控制代理的仅有算法之一。

可以这样做的另一种方法称为信任区域策略优化(TRPO)。它是由UC Bekelery团队(以及OpenAI?)开发的。TRPO和DDPG的基本结构是相同的(都是演员评判的),但是培训是不同的。DDPG使用目标网络方法来确保收敛和稳定性,而TRPO在网络更新上施加Kullerback-Leibler散度约束,以确保网络的每次更新都不会太大(即,在t时刻网络的最佳策略没有太大差异)从t-1开始)。TRPO非常难以编码,因此,OpenAI发表了另一篇名为《近端策略梯度》(PPO)的论文。此方法类似于TRPO,但更易于实现。

长话短说,我建议您尝试DDPG,因为如果您的任务很简单,那么DDPG肯定可以工作。

  • 嗨,毛罗,这个问题对于 DDPG 来说应该是完全没问题的。在第 12 页的 DDPG 论文中,它列出了它成功完成的所有不同物理任务。从列表中,一些活动具有 dim(37) 状态、dim(12) 动作,并且可以观察到 100 多个不同的特征。 (2认同)