小编Pab*_* EM的帖子

Raspberry-pi docker错误:standard_init_linux.go:178:exec用户进程导致"exec格式错误"

我根据官方说明(即运行curl -sSL https://get.docker.com | sh)安装了rapsbian的docker 但是我无法运行hello-world示例(我还尝试了其他示例而没有成功).这是我得到的错误:

pi@raspberrypi2:~ $ docker run hello-world
standard_init_linux.go:178: exec user process caused "exec format error"
Run Code Online (Sandbox Code Playgroud)

我的环境是Raspberry Pi 2 Model B,使用Raspbian GNU/Linux 8(jessie)和Docker版本17.03.0-ce,构建60ccb22.

任何有关问题的提示或解决问题的可能方向?

非常感谢!

linux raspberry-pi raspbian docker

14
推荐指数
1
解决办法
1万
查看次数

用于连续状态,离散动作的强化学习算法

我试图在连续状态(昏暗= 20)和离散动作(3种可能的动作)的环境中找到最优策略.并且有一个特定的时刻:对于最优政策,一个动作(称之为"动作0")应该比其他两个更频繁地选择(大约100倍以上;这两个动作更有风险).

我尝试过使用NN值函数逼近的Q学习.结果相当糟糕:NN学会总是选择"动作0".我认为政策梯度方法(关于NN权重)可能有所帮助,但不了解如何在离散行动中使用它们.

你能给一些建议尝试一下吗?(也许算法,论文要读).当状态空间是连续的并且动作空间是离散的时,最先进的RL算法是什么?

谢谢.

machine-learning reinforcement-learning

7
推荐指数
1
解决办法
4132
查看次数

如何在Sutton&Barto的RL书中理解Watkins的Q(λ)学习算法?

在Sutton&Barto的RL书(链接)中,Watkins的Q(λ)学习算法如图7.14所示: 在此输入图像描述 第10行"对于所有s,a:",这里的"s,a"适用于所有(s,a),而第8行和第9行中的(s,a)用于当前(s,a) , 这是正确的吗?

在第12行和第13行中,当'!= a*,执行第13行时,所有e(s,a)都将设置为0,那么当所有资格跟踪都设置为0时,资格跟踪的点是什么,因为情况'!= a*会经常发生.即使情况'!= a*不经常发生,但一旦发生,资格跟踪的含义将完全失败,那么Q将不会再次更新,因为所有的e(s,a)= 0,然后在每次更新时,如果使用替换迹线,e(s,a)仍将为0.

那么,这是一个错误吗?

reinforcement-learning q-learning

5
推荐指数
2
解决办法
2566
查看次数