mau*_*omi 1 python artificial-intelligence machine-learning reinforcement-learning
问题
我的目标是应用强化学习来预测物体在3D环境下处于已知力下的下一个状态(该方法将简化为监督学习,离线学习)。
我的方法的细节
当前状态是代表物体在环境中的位置(3维)和物体的速度(3维)的向量。起始位置以及起始速度在环境中被随机初始化。
动作是代表从状态t到状态t + 1的运动的向量。
奖励只是预测的下一个状态与实际的下一个状态(我已经有了目标位置)之间的欧几里得距离。
到目前为止,我做了什么?
我一直在寻找许多方法来做到这一点。深度确定性策略梯度适用于连续的操作空间,但就我而言,我也具有连续的状态空间。如果您对此方法感兴趣,请参考DeepMind上的原始文章:http: //proceedings.mlr.press/v32/silver14.pdf
该演员,评论家方法应该可行,但它通常是(或总是)应用于离散和低维状态空间。
Q-Learning和Deep-Q Learning无法处理高维状态空间,因此即使离散化状态空间,我的配置也无法使用。
逆向强化学习(模仿学习的一个实例,具有行为克隆和直接策略学习)可以在发现奖励功能比查找策略功能复杂时近似奖励功能。有趣的方法,但是我还没有看到任何实现,对于我来说,奖励功能非常简单。有没有可以解决我的配置问题的方法?
在您的问题中,我相信可能会有很多困惑和误解。
首先,深度确定性策略梯度(DDPG)绝对可以处理连续的状态和动作。它之所以如此著名仅是因为它。而且,它是有史以来第一个稳定的架构。另外,您链接的纸张实际上是DPG,而不是DDPG。但是,DDPG和DPG都可以处理连续的状态和动作,但是后者更加不稳定。该论文实际上是由我在UofA的“高级”发表的。这是DDPG的链接:https ://arxiv.org/pdf/1509.02971.pdf 。
批评演员的RL不是算法,而是一系列RL算法,其中演员将状态映射到动作,而评论家则“预处理”反馈信号,以便演员可以更有效地学习它。DDPG是演员评判机构的一个例子。在DDPG中,DQN用作批注者,以对确定性策略梯度(参与者)的反馈信号进行预处理。
回到原来的问题。
我几乎可以保证您可以使用DDPG解决您的问题。实际上,DDPG仍然是可用于在连续状态,连续动作空间中控制代理的仅有算法之一。
可以这样做的另一种方法称为信任区域策略优化(TRPO)。它是由UC Bekelery团队(以及OpenAI?)开发的。TRPO和DDPG的基本结构是相同的(都是演员评判的),但是培训是不同的。DDPG使用目标网络方法来确保收敛和稳定性,而TRPO在网络更新上施加Kullerback-Leibler散度约束,以确保网络的每次更新都不会太大(即,在t时刻网络的最佳策略没有太大差异)从t-1开始)。TRPO非常难以编码,因此,OpenAI发表了另一篇名为《近端策略梯度》(PPO)的论文。此方法类似于TRPO,但更易于实现。
长话短说,我建议您尝试DDPG,因为如果您的任务很简单,那么DDPG肯定可以工作。