我正在运行基于 GAN 的研究论文的开源代码,名为“Investigating Generative Adversarial Networks based Speech Dereverberation for Robust Speech Recognition”
源代码:这里
的依赖项包括:
我在我的 GPU 虚拟机上使用 python 2.7 拉了一个 TensorFlow 1.4.0 的 Docker 镜像,使用以下命令连接 ssh 连接:
docker pull tensorflow/tensorflow:1.4.0-gpu
Run Code Online (Sandbox Code Playgroud)
我在跑步
bash rsrgan/run_gan_rnn_placeholder.sh
Run Code Online (Sandbox Code Playgroud)
一切正常,模型正在训练,损失在减少,但只有一个问题,经过一些迭代终端显示没有输出,GPU仍然显示PID但没有释放内存,有时GPU-Utils变为0%。在 VM 的 GPU 和 CPU 上进行训练是相同的情况。这不是内存问题 因为按型号划分的 GPU 内存使用量为 11,000MB 中的 5400MB,而且 CPU 的 RAM 也非常大
当我在本地计算机上运行 21 次迭代时,每次迭代用 0.09 小时使用第一代 i5 和 4GB RAM 执行所有迭代。但是每当我在 docker 中使用 ssh 运行它时,GPU 和 CPU 都会一次又一次地发生问题。请记住,问题发生在 …