增强学习以获取连续的状态和动作空间

Question

增强学习以获取连续的状态和动作空间

mau*_*omi 1 python artificial-intelligence machine-learning reinforcement-learning

问题

我的目标是应用强化学习来预测物体在3D环境下处于已知力下的下一个状态（该方法将简化为监督学习，离线学习）。

我的方法的细节

当前状态是代表物体在环境中的位置（3维）和物体的速度（3维）的向量。起始位置以及起始速度在环境中被随机初始化。

动作是代表从状态t到状态t + 1的运动的向量。

奖励只是预测的下一个状态与实际的下一个状态（我已经有了目标位置）之间的欧几里得距离。

到目前为止，我做了什么？

我一直在寻找许多方法来做到这一点。深度确定性策略梯度适用于连续的操作空间，但就我而言，我也具有连续的状态空间。如果您对此方法感兴趣，请参考DeepMind上的原始文章：http： //proceedings.mlr.press/v32/silver14.pdf

该演员，评论家方法应该可行，但它通常是（或总是）应用于离散和低维状态空间。

Q-Learning和Deep-Q Learning无法处理高维状态空间，因此即使离散化状态空间，我的配置也无法使用。

逆向强化学习（模仿学习的一个实例，具有行为克隆和直接策略学习）可以在发现奖励功能比查找策略功能复杂时近似奖励功能。有趣的方法，但是我还没有看到任何实现，对于我来说，奖励功能非常简单。有没有可以解决我的配置问题的方法？

Answer 1

Rui*_*ian 5

在您的问题中，我相信可能会有很多困惑和误解。

首先，深度确定性策略梯度（DDPG）绝对可以处理连续的状态和动作。它之所以如此著名仅是因为它。而且，它是有史以来第一个稳定的架构。另外，您链接的纸张实际上是DPG，而不是DDPG。但是，DDPG和DPG都可以处理连续的状态和动作，但是后者更加不稳定。该论文实际上是由我在UofA的“高级”发表的。这是DDPG的链接：https ://arxiv.org/pdf/1509.02971.pdf 。
批评演员的RL不是算法，而是一系列RL算法，其中演员将状态映射到动作，而评论家则“预处理”反馈信号，以便演员可以更有效地学习它。DDPG是演员评判机构的一个例子。在DDPG中，DQN用作批注者，以对确定性策略梯度（参与者）的反馈信号进行预处理。
Q学习和深度Q学习也是RL算法家族。鉴于计算能力不足，Q学习当然不能处理高状态空间，但是，深度Q学习当然可以。深度Q网络就是一个例子。

回到原来的问题。

我几乎可以保证您可以使用DDPG解决您的问题。实际上，DDPG仍然是可用于在连续状态，连续动作空间中控制代理的仅有算法之一。

可以这样做的另一种方法称为信任区域策略优化（TRPO）。它是由UC Bekelery团队（以及OpenAI？）开发的。TRPO和DDPG的基本结构是相同的（都是演员评判的），但是培训是不同的。DDPG使用目标网络方法来确保收敛和稳定性，而TRPO在网络更新上施加Kullerback-Leibler散度约束，以确保网络的每次更新都不会太大（即，在t时刻网络的最佳策略没有太大差异）从t-1开始）。TRPO非常难以编码，因此，OpenAI发表了另一篇名为《近端策略梯度》（PPO）的论文。此方法类似于TRPO，但更易于实现。

长话短说，我建议您尝试DDPG，因为如果您的任务很简单，那么DDPG肯定可以工作。

嗨，毛罗，这个问题对于 DDPG 来说应该是完全没问题的。在第 12 页的 DDPG 论文中，它列出了它成功完成的所有不同物理任务。从列表中，一些活动具有 dim(37) 状态、dim(12) 动作，并且可以观察到 100 多个不同的特征。 (2认同)

归档时间：	6 年，11 月前
查看次数：	1133 次
最近记录：	6 年，7 月前