这不一定是 Linux 问题,但无论如何我都会在这里问它。我使用的工作站主要用于训练深度学习和机器学习模型。我在 CPU 和 GPU 上运行训练代码。
\nCPU:AMD Ryzen 9 5950X 16 核处理器
\n显卡:NVIDIA GeForce RTX 3090
\n操作系统:Ubuntu 22.04 LTS
\n我使用的库(PyTorch、XGBoost、LightGBM 等)大量利用交换内存来加载数据。在处理大型数据集时,交换内存会缓慢积累并超过限制 (2GB)。当这种情况发生时,所有核心都会变得疯狂,CPU 会过热。几秒钟后工作站自行关闭。
\n我是一名数据科学家,但我不擅长硬件。我花了几周时间才弄清楚为什么我的工作站总是自动关闭。我必须找到一种方法来防止这种情况发生,因为我无法再完成自己的任务了。您有什么建议?
\n向您提供更多详细信息,这在 3-4 个月前还没有发生。最近才开始。
\n编辑:添加了 nvidia-smi 和传感器输出,同时训练两个模型(UNet 和 YOLOv6)。
\n英伟达-SMI
\n+-----------------------------------------------------------------------------+\n| NVIDIA-SMI 510.73.05 Driver Version: 510.73.05 CUDA Version: 11.6 |\n|-------------------------------+----------------------+----------------------+\n| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |\n| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |\n| | | MIG M. |\n|===============================+======================+======================|\n| 0 …Run Code Online (Sandbox Code Playgroud)