Q学习与SARSA有什么区别？

ACTIONS = 5

# Inputs
x = tf.placeholder('float', shape=[None, 10, 10, 4])
y = tf.placeholder('float', shape=[None])
a = tf.placeholder('float', shape=[None, ACTIONS])

# Layer 1 Conv1 - input
with tf.name_scope('Layer1'):
    W_conv1 = weight_variable([8,8,4,8])
    b_conv1 = bias_variable([8])    
    h_conv1 = tf.nn.relu(conv2d(x, W_conv1, 5)+b_conv1)

# Layer 2 Conv2 - hidden1 
with tf.name_scope('Layer2'):
    W_conv2 = weight_variable([2,2,8,8])
    b_conv2 = bias_variable([8])
    h_conv2 = tf.nn.relu(conv2d(h_conv1, W_conv2, 1)+b_conv2) …

Run Code Online (Sandbox Code Playgroud)

python neural-network q-learning deep-learning tensorflow

nat*_*chz

2016 02-16

19
推荐指数

1
解决办法

2434
查看次数

Keras的政策梯度

我一直在尝试使用"深度Q学习"来构建模型,其中我有大量的动作(2908).在使用标准DQN取得了一些有限的成功之后:(https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf),我决定做更多的研究,因为我认为动作空间太大了有效的探索.

然后我发现了这篇论文:https://arxiv.org/pdf/1512.07679.pdf,他们使用演员评论模型和政策渐变,然后引导我:https://arxiv.org/pdf/1602.01783.pdf他们使用政策梯度来获得比DQN更好的结果.

我找到了一些他们在Keras实施政策梯度的网站,https : //yanpanlau.github.io/2016/10/11/Torcs-Keras.html 和https://oshearesearch.com/index.php/ 2016/06/14/kerlym-a-deep-reinforcement-learning-toolbox-in-keras /但是我很困惑它们是如何实现的.在前者(当我阅读论文时)似乎不是为演员网络提供输入和输出对,而是为所有权重提供渐变,然后使用网络来更新它,而在后者中他们只计算输入 - 输出对.

我只是困惑自己吗？我应该通过提供输入 - 输出对来训练网络并使用标准的"适合",还是我必须做一些特别的事情？如果是后者,我如何使用Theano后端进行操作？(上面的例子使用TensorFlow).

python q-learning theano deep-learning keras

sim*_*eon

2018 07-23

18
推荐指数

1
解决办法

5916
查看次数

最佳epsilon(ε-贪婪)值

ε-贪婪的政策

我知道Q学习算法应该尝试在探索和利用之间取得平衡.由于我是这个领域的初学者,我想实现一个简单版本的探索/开发行为.

最佳epsilon值

我的实现使用了ε-greedy策略,但在决定epsilon值时我很茫然.ε应该由算法访问给定(状态,动作)对的次数限制,还是应该由执行的迭代次数限制？

我的建议:

每次遇到给定(状态,动作)对时,降低epsilon值.
执行完整迭代后降低epsilon值.
每次遇到状态s时降低epsilon值.

非常感激!

machine-learning reinforcement-learning q-learning

Occ*_*Man

2014 04-02

16
推荐指数

1
解决办法

2万
查看次数

如何使用Tensorflow Optimizer而不重新计算在每次迭代后返回控制的强化学习程序中的激活？

编辑(1/3/16):相应的github问题

我正在使用Tensorflow(Python接口)来实现一个q-learning代理,其函数逼近使用随机梯度下降进行训练.在实验的每次迭代中,调用代理中的步骤函数,其基于新的奖励和激活来更新近似器的参数,然后选择要执行的新动作.

这是问题(加强学习术语):

代理计算其状态 - 动作值预测以选择动作.
然后控制另一个程序,它模拟环境中的一个步骤.
现在调用代理程序的step函数进行下一次迭代.我想使用Tensorflow的Optimizer类为我计算渐变.但是,这需要我计算最后一步的状态 - 动作值预测和它们的图形.所以:
- 如果我在整个图上运行优化器,那么它必须重新计算状态 - 动作值预测.
- 但是,如果我将预测(对于所选操作)存储为变量,然后将其作为占位符提供给优化器,则它不再具有计算渐变所需的图形.
- 我不能只在同一个sess.run()语句中运行它,因为我必须放弃控制并返回所选的动作以获得下一个观察和奖励(在目标中使用损失函数) .

那么,有没有办法可以(没有强化学习行话):

计算我的图形的一部分,返回value1.
将value1返回给调用程序以计算value2
在下一次迭代中,使用value2作为渐变下降的损失函数的一部分,而不重新计算计算value1的图形部分.

当然,我考虑过明显的解决方案:

只需对渐变进行硬编码:对于我现在使用的非常简单的逼近器来说这很容易,但如果我在一个大的卷积网络中尝试不同的滤波器和激活函数,那将非常不方便.如果可能的话,我真的很想使用Optimizer类.
从代理内部调用环境模拟: 这个系统做到了这一点,但它会使我更复杂,并删除了很多模块化和结构.所以,我不想这样做.

我已多次阅读API和白皮书,但似乎无法提出解决方案.我试图想出一些方法将目标输入图形来计算梯度,但是无法想出一种自动构建图形的方法.

如果事实证明这在TensorFlow中是不可能的,你认为将它作为一个新的运算符来实现它会非常复杂吗？(我在几年内没有使用C++,所以TensorFlow源看起来有点令人生畏.)或者我会更好地切换到像Torch这样具有强制性差异Autograd,而不是象征性差异的东西？

感谢您抽出宝贵时间帮助我解决这个问题.我试图尽可能地简洁.

编辑:在做了一些进一步的搜索后,我遇到了这个先前提出的问题.它与我的有点不同(他们试图避免在Torch的每次迭代中两次更新LSTM网络),并且还没有任何答案.

如果有帮助,这里有一些代码:

'''
-Q-Learning agent for a grid-world environment.
-Receives input as raw rbg pixel representation of screen.
-Uses an artificial neural network function approximator with one hidden layer

2015 Jonathon Byrd
'''

import random
import sys
#import copy
from rlglue.agent.Agent import Agent
from rlglue.agent import AgentLoader as AgentLoader …

Run Code Online (Sandbox Code Playgroud)

machine-learning reinforcement-learning q-learning tensorflow

Jon*_*yrd

2017 05-23

13
推荐指数

1
解决办法

2781
查看次数

游戏中的Q-learning无法按预期工作

我试图在我写的一个简单的游戏中实现Q-learning.该游戏基于玩家必须"跳跃"以避免迎面而来的盒子.

我设计了两个动作系统; jump并且do_nothing状态是距下一个区块的距离(划分和覆盖以确保没有大量状态).

我的问题似乎是我的算法实现没有考虑"未来的奖励",所以它最终在错误的时间跳跃.

这是我对Q学习算法的实现;

JumpGameAIClass.prototype.getQ = function getQ(state) {
    if (!this.Q.hasOwnProperty(state)) {
        this.Q[state] = {};

        for (var actionIndex = 0; actionIndex < this.actions.length; actionIndex++) {
            var action = this.actions[actionIndex];

            this.Q[state][action] = 0;
        }
    }

    return this.Q[state];
};

JumpGameAIClass.prototype.getBlockDistance = function getBlockDistance() {
    var closest = -1;

    for (var blockIndex = 0; blockIndex < this.blocks.length; blockIndex++) {
        var block = this.blocks[blockIndex];

        var distance = block.x - this.playerX;

        if (distance >= 0 && (closest === -1 || distance …

Run Code Online (Sandbox Code Playgroud)

artificial-intelligence game-ai q-learning

Jac*_*don

lucky-day

10
推荐指数

1
解决办法

585
查看次数