小编Dop*_*ope的帖子

所以我正在尝试实现由 Google DeepMind 创建的深度 Q 学习算法，我认为我现在已经掌握了它。然而，还有一件事（非常重要）我不太明白，我希望你能帮忙。

yj 不会导致双精度（Java），后半部分不会导致包含当前状态下每个动作的 Q 值的矩阵在下一行（算法中的最后一行）：

那么我怎样才能将它们相互减去。

我是否应该将 yj 设为包含此处所有数据的矩阵除了用

这似乎不是正确的答案，正如您所看到的，我在这里有点迷茫。

3
推荐指数

1
解决办法

729
查看次数

小编Dop_ope的帖子