在噪声作用和非单调增强下学习结果空间

use*_*629 7 artificial-intelligence machine-learning reinforcement-learning

我正在寻找构建或改编优选基于RL理论的模型,该模型可以解决以下问题.非常感谢任何指导或指示.

我有一个连续的动作空间,可以在10-100(含)范围内选择动作.根据值函数,每个动作与某个强化值相关联,范围从0到1(也包括).到现在为止还挺好.这是我开始介入的地方:

并发症1:

值函数V根据给定动作x和目标动作A之间的距离将动作映射到强化.两者之间的距离越小,强化越大(即,强化与abs(A - x)成反比.但是,对于接近A的动作,值函数仅为非零(abs(A - x)较小)比如说epsilon)和其他地方的零.所以:

**V**正比于1 / abs(**A** - **x**)abs(**A** - **x**) < epsilon,和

**V** = 0abs(**A** - **x**) > epsilon.

并发症2:

我不确切地知道每一步采取了什么行动.我大致知道它们是什么,因此我知道它们属于x +/- sigma 范围,但不能将单个动作值与我收到的强化完全关联起来.

我想要解决的确切问题如下:我有一系列嘈杂的动作估计和精确的强化值(例如在试验1中我可能有~15-30的x和0的强化;在试验2我可能有x约为25-40,强化为0;在试验3中,x约为80-95,强化为0.6.)我想构建一个模型,该模型表示每个步骤后目标动作A最可能位置的估计值.,可能根据某些学习速率参数对新信息进行加权(因为确定性会随着样本的增加而增加).

pyt*_*981 1

这篇期刊文章可能相关:它解决了存在噪音和不一致奖励的情况下的延迟奖励和稳健学习。

“罕见的神经相关性通过延迟奖励和干扰实现机器人调节”

具体来说,他们追踪(记住)哪些突触(或动作)在奖励事件之前被激发,并强化所有突触,其中强化的量随着动作和奖励之间的时间而衰减。

单个奖励事件将奖励在奖励(或执行的操作)之前触发的任何突触,包括与奖励无关的突触。然而,通过合适的学习率,这应该在几次迭代后稳定下来,只有期望的动作才会得到持续的奖励和强化。