小编gun*_*tan的帖子

交换空间已满时 CPU 过热且 PC 关闭

这不一定是 Linux 问题,但无论如何我都会在这里问它。我使用的工作站主要用于训练深度学习和机器学习模型。我在 CPU 和 GPU 上运行训练代码。

\n

CPU:AMD Ryzen 9 5950X 16 核处理器

\n

显卡:NVIDIA GeForce RTX 3090

\n

操作系统:Ubuntu 22.04 LTS

\n

我使用的库(PyTorch、XGBoost、LightGBM 等)大量利用交换内存来加载数据。在处理大型数据集时,交换内存会缓慢积累并超过限制 (2GB)。当这种情况发生时,所有核心都会变得疯狂,CPU 会过热。几秒钟后工作站自行关闭。

\n

我是一名数据科学家,但我不擅长硬件。我花了几周时间才弄清楚为什么我的工作站总是自动关闭。我必须找到一种方法来防止这种情况发生,因为我无法再完成自己的任务了。您有什么建议?

\n

向您提供更多详细信息,这在 3-4 个月前还没有发生。最近才开始。

\n

编辑:添加了 nvidia-smi 和传感器输出,同时训练两个模型(UNet 和 YOLOv6)。

\n

英伟达-SMI

\n
+-----------------------------------------------------------------------------+\n| NVIDIA-SMI 510.73.05    Driver Version: 510.73.05    CUDA Version: 11.6     |\n|-------------------------------+----------------------+----------------------+\n| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |\n| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |\n|                               |                      |               MIG M. |\n|===============================+======================+======================|\n|   0 …
Run Code Online (Sandbox Code Playgroud)

linux cpu ubuntu hardware

10
推荐指数
2
解决办法
3077
查看次数

标签 统计

cpu ×1

hardware ×1

linux ×1

ubuntu ×1