我正在学习这个强化学习教程 ,到目前为止它真的很棒,但有人可以解释一下吗
newQ = model.predict(new_state.reshape(1,64), batch_size=1)
Run Code Online (Sandbox Code Playgroud)
和
model.fit(X_train, y_train, batch_size=batchSize, nb_epoch=1, verbose=1)
Run Code Online (Sandbox Code Playgroud)
意思?
至于在什么做的论点bach_size,nb_epoch和verbose做什么?我知道神经网络,所以用它来解释会很有帮助。
您还可以向我发送一个链接,其中可以找到这些函数的文档。