我正在使用 实现简单的DQN算法pytorch来解决来自 的 CartPole 环境gym。我已经调试了一段时间了,我不明白为什么模型没有学习。
观察结果:
SmoothL1Loss性能比 差MSEloss,但两者的损失都会增加LR不起作用Adam,我已经使用 0.0001、0.00025、0.0005 和默认值进行了测试笔记:
learn。我想知道这个错误是否是由于我对detachpytorch 的误解或我犯的一些其他框架错误造成的。参考:
import torch as T
import torch.nn as nn
import torch.nn.functional as F
import gym
import numpy as np
class ReplayBuffer:
def __init__(self, mem_size, input_shape, output_shape):
self.mem_counter = 0
self.mem_size = mem_size
self.input_shape = input_shape
self.actions = np.zeros(mem_size)
self.states = …Run Code Online (Sandbox Code Playgroud) python machine-learning reinforcement-learning q-learning pytorch