小编gun*_*tan的帖子

交换空间已满时 CPU 过热且 PC 关闭

这不一定是 Linux 问题，但无论如何我都会在这里问它。我使用的工作站主要用于训练深度学习和机器学习模型。我在 CPU 和 GPU 上运行训练代码。

CPU：AMD Ryzen 9 5950X 16 核处理器

显卡：NVIDIA GeForce RTX 3090

操作系统：Ubuntu 22.04 LTS

我使用的库（PyTorch、XGBoost、LightGBM 等）大量利用交换内存来加载数据。在处理大型数据集时，交换内存会缓慢积累并超过限制 (2GB)。当这种情况发生时，所有核心都会变得疯狂，CPU 会过热。几秒钟后工作站自行关闭。

我是一名数据科学家，但我不擅长硬件。我花了几周时间才弄清楚为什么我的工作站总是自动关闭。我必须找到一种方法来防止这种情况发生，因为我无法再完成自己的任务了。您有什么建议？

向您提供更多详细信息，这在 3-4 个月前还没有发生。最近才开始。

编辑：添加了 nvidia-smi 和传感器输出，同时训练两个模型（UNet 和 YOLOv6）。

英伟达-SMI

+-----------------------------------------------------------------------------+\n| NVIDIA-SMI 510.73.05    Driver Version: 510.73.05    CUDA Version: 11.6     |\n|-------------------------------+----------------------+----------------------+\n| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |\n| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |\n|                               |                      |               MIG M. |\n|===============================+======================+======================|\n|   0 …

Run Code Online (Sandbox Code Playgroud)

linux cpu ubuntu hardware

gun*_*tan

2022 06-30

10
推荐指数

2
解决办法

3077
查看次数