Cre*_*nia 5 server crash 20.04
我正在努力寻找 Ubuntu 服务器挂起/崩溃的原因。
我在我的旧计算机上安装了准系统Ubuntu Server 20.04.2 LTS,尝试将其用作个人服务器来托管我的一些项目。
我的问题是几个小时后,有时短至 2 到 3 小时,长至 8 到 12 小时,我的服务器最终会挂起。
我得到了视觉输出,但它对键盘、鼠标或 ssh完全没有响应。有时它会记录CPU #X stuck for Xs!,但似乎永远不会来自同一个地方。有时kworkers,有时md-udev,有时systemd-networkd。其他时候,我根本没有任何视觉输出,只能强制重新启动。
所以当前在我的服务器上运行的是:
最让我困惑的是我根本没有得到任何日志,我检查了我的内核和系统日志,通常最后一行是UFW block一些垃圾邮件发送者 IP 地址的不相关命令,但没有更实质性的内容。我也尝试过查看/var/crash/相同的内容,要么是空的,要么是重新启动的日志。
我浏览过这个网站,人们通常认为这可能是硬件问题,但当我的主要设置是 Windows 10 时,我在运行该系统时从未遇到过问题。
我尝试过的:
我的系统规格是:
Ryzen 1700 @stock
16 GB CORSAIR GDDR4 @2133MHz but rated for 3200Mhz
MSI B350 Gaming PLUS MOBO
Gigabyte GTX 1080
Samsung 960 EVO 512GB nVme SSD
650W corsair power supply
Plenty of cooling
Run Code Online (Sandbox Code Playgroud)
如果你们中的任何人对如何诊断我的设置有任何线索或建议,或者我可以尝试的更多步骤,我将不胜感激。
感谢您的帮助
编辑 2021-03-03
在深入研究 ubuntu ryzen 和冻结之后,我在AMD 论坛上发现了这个帖子。这表明第一代 ryzen 上的 C6 状态存在问题。他们的建议是切换BIOS 中的电源状态Typical Current Idle,这显然会对 C6 状态产生影响。我会尝试一下,看看是否有什么变化。
好吧,我想我会回答我自己的问题。
我的问题可能与 Ryzen CPU 不能很好地与 Linux 配合有关。根据这个AMD 论坛的情况,很多人在闲置时遇到了 Ryzen CPU 和 Linux 的类似问题,并且Reddit 线程中的 OP 报告了类似的问题。C6 CPU 状态和挂起之间似乎存在联系。
查看您的 BIOS 并尝试找到Power Supply Idle Control或Global C-state Control并将该值从Auto或Low Current Idle更改为Typical Current Idle。
如果这没有解决问题或者您没有该选项,可以在此github repo中找到另一种禁用它的方法。
我个人在我的 MSI 主板 BIOS 中有这个选项,应用了正确的值并运行了 48 小时,没有任何问题,尽管功耗可能稍高一些。
这确实是一个令人沮丧的调试问题,但最终我最终学习了一些新东西并使我的服务器再次稳定下来。
感谢所有参与并分享我的挫败感的人,我希望这篇文章对其他人有用。
| 归档时间: |
|
| 查看次数: |
6609 次 |
| 最近记录: |