小编Ahw*_*war的帖子

在 Docker 中使用 Tensorflow 1.4 的 GAN 训练停止而不提示并且不释放通过 SSH 连接连接到 VM 的内存

项目详情

我正在运行基于 GAN 的研究论文的开源代码,名为“Investigating Generative Adversarial Networks based Speech Dereverberation for Robust Speech Recognition”
源代码:这里
的依赖项包括:

  • 蟒蛇 2.7
  • TensorFlow 1.4.0

我在我的 GPU 虚拟机上使用 python 2.7 拉了一个 TensorFlow 1.4.0 的 Docker 镜像,使用以下命令连接 ssh 连接:

docker pull tensorflow/tensorflow:1.4.0-gpu
Run Code Online (Sandbox Code Playgroud)

我在跑步

bash rsrgan/run_gan_rnn_placeholder.sh
Run Code Online (Sandbox Code Playgroud)

根据源代码的自述文件

问题详情

一切正常,模型正在训练,损失在减少,但只有一个问题,经过一些迭代终端显示没有输出,GPU仍然显示PID但没有释放内存,有时GPU-Utils变为0%。在 VM 的 GPU 和 CPU 上进行训练是相同的情况。这不是内存问题 因为按型号划分的 GPU 内存使用量为 11,000MB 中的 5400MB,而且 CPU 的 RAM 也非常大

nvidia-smi 输出

当我在本地计算机上运行 21 次迭代时,每次迭代用 0.09 小时使用第一代 i5 和 4GB RAM 执行所有迭代。但是每当我在 docker 中使用 ssh 运行它时,GPU 和 CPU 都会一次又一次地发生问题。请记住,问题发生在 …

ssh nvidia python-2.7 docker tensorflow

1
推荐指数
1
解决办法
272
查看次数

标签 统计

docker ×1

nvidia ×1

python-2.7 ×1

ssh ×1

tensorflow ×1