我根据官方说明(即运行curl -sSL https://get.docker.com | sh)安装了rapsbian的docker 但是我无法运行hello-world示例(我还尝试了其他示例而没有成功).这是我得到的错误:
pi@raspberrypi2:~ $ docker run hello-world
standard_init_linux.go:178: exec user process caused "exec format error"
Run Code Online (Sandbox Code Playgroud)
我的环境是Raspberry Pi 2 Model B,使用Raspbian GNU/Linux 8(jessie)和Docker版本17.03.0-ce,构建60ccb22.
任何有关问题的提示或解决问题的可能方向?
非常感谢!
我试图在连续状态(昏暗= 20)和离散动作(3种可能的动作)的环境中找到最优策略.并且有一个特定的时刻:对于最优政策,一个动作(称之为"动作0")应该比其他两个更频繁地选择(大约100倍以上;这两个动作更有风险).
我尝试过使用NN值函数逼近的Q学习.结果相当糟糕:NN学会总是选择"动作0".我认为政策梯度方法(关于NN权重)可能有所帮助,但不了解如何在离散行动中使用它们.
你能给一些建议尝试一下吗?(也许算法,论文要读).当状态空间是连续的并且动作空间是离散的时,最先进的RL算法是什么?
谢谢.
在Sutton&Barto的RL书(链接)中,Watkins的Q(λ)学习算法如图7.14所示:
第10行"对于所有s,a:",这里的"s,a"适用于所有(s,a),而第8行和第9行中的(s,a)用于当前(s,a) , 这是正确的吗?
在第12行和第13行中,当'!= a*,执行第13行时,所有e(s,a)都将设置为0,那么当所有资格跟踪都设置为0时,资格跟踪的点是什么,因为情况'!= a*会经常发生.即使情况'!= a*不经常发生,但一旦发生,资格跟踪的含义将完全失败,那么Q将不会再次更新,因为所有的e(s,a)= 0,然后在每次更新时,如果使用替换迹线,e(s,a)仍将为0.
那么,这是一个错误吗?