小编Ahw*_*war的帖子

在 Docker 中使用 Tensorflow 1.4 的 GAN 训练停止而不提示并且不释放通过 SSH 连接连接到 VM 的内存

项目详情

我正在运行基于 GAN 的研究论文的开源代码，名为“Investigating Generative Adversarial Networks based Speech Dereverberation for Robust Speech Recognition”
源代码：这里
的依赖项包括：

蟒蛇 2.7
TensorFlow 1.4.0

我在我的 GPU 虚拟机上使用 python 2.7 拉了一个 TensorFlow 1.4.0 的 Docker 镜像，使用以下命令连接 ssh 连接：

docker pull tensorflow/tensorflow:1.4.0-gpu

Run Code Online (Sandbox Code Playgroud)

我在跑步

bash rsrgan/run_gan_rnn_placeholder.sh

Run Code Online (Sandbox Code Playgroud)

根据源代码的自述文件

问题详情

一切正常，模型正在训练，损失在减少，但只有一个问题，经过一些迭代终端显示没有输出，GPU仍然显示PID但没有释放内存，有时GPU-Utils变为0％。在 VM 的 GPU 和 CPU 上进行训练是相同的情况。这不是内存问题因为按型号划分的 GPU 内存使用量为 11,000MB 中的 5400MB，而且 CPU 的 RAM 也非常大