我正在 4x RTX 3090 上运行一个用 TensorFlow 1.x 编写的模型,与1x RTX 3090 相比,启动训练需要很长时间。尽管随着训练开始,它在 4x 中比在 1x 中更早完成. 我在两个 GPU 中都使用 CUDA 11.1 和 TensorFlow 1.14。
其次,当我使用带有 CUDA 10.2 和 TensorFlow 1.14 的 1x RTX 2080ti 时,与带有 11.1 CUDA 和 Tensorflow 1.14 的 1x RTX 3090 相比,开始训练所需的时间更少。暂定,开始训练其中一个数据集需要1x RTX 2080ti 5 分钟、1x RTX 3090 30-35 分钟和 4x RTX 3090 1.5 小时。
如果有人能帮助我解决这个问题,我将不胜感激。
我在 2080ti 和 3090 机器上使用 Ubuntu 16.04、Core™ i9-10980XE CPU 和 32 GB 内存。
编辑:根据 …