所以我正在尝试实现由 Google DeepMind 创建的深度 Q 学习算法,我认为我现在已经掌握了它。然而,还有一件事(非常重要)我不太明白,我希望你能帮忙。
yj 不会导致双精度(Java),后半部分不会导致包含当前状态下每个动作的 Q 值的矩阵在下一行(算法中的最后一行):
那么我怎样才能将它们相互减去。
我是否应该将 yj 设为包含此处所有数据的矩阵 除了用
这似乎不是正确的答案,正如您所看到的,我在这里有点迷茫。
java algorithm neural-network q-learning deep-learning
algorithm ×1
deep-learning ×1
java ×1
neural-network ×1
q-learning ×1