ank*_*540 6 kernel freeze amd-processor crash 16.04
我正在运行 Ryzen 1700X CPU 并进行计算。在运行 16.04 LTS (Kernel 4.10) 时,系统时不时地崩溃。系统不会重新启动。显示器无信号,键盘+鼠标不工作。我无法通过 SSH 连接。
我在运行 16.04 LTS 时保存了kern.log和syslog文件。
在阅读了几篇文章并阅读了有关新架构和问题的问题后,我决定尝试更新的内核,并从此处移至 4.12.8(日期为 2017 年 8 月 16 日)。我在 AskUbuntu 上使用了这篇文章来更新内核。系统启动良好,我的应用程序现在运行了大约 10 个小时。
大约 11 小时后系统再次崩溃,syslog
在 16.04 LTS 上的内核 4.10 中看到相同的消息,如下所示。{内核和系统日志文件,4.12 内核:kern.log 新内核和syslog 新内核}
Aug 18 17:27:13 vriksha systemd[1]: Starting Cleanup of Temporary Directories...
Aug 18 17:27:13 vriksha systemd-tmpfiles[4661]: [/usr/lib/tmpfiles.d/var.conf:14] Duplicate line for path "/var/log", ignoring.
Aug 18 17:27:13 vriksha systemd[1]: Started Cleanup of Temporary Directories.
Aug 18 17:28:25 vriksha ntpd[1516]: 209.242.224.117 local addr 192.168.2.15 -> <null>
Aug 18 17:35:01 vriksha CRON[4821]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:35:40 vriksha systemd[1]: Started Session 5 of user vani.
Aug 18 17:42:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 17:42:18 vriksha sensord: Adapter: PCI adapter
Aug 18 17:42:18 vriksha sensord: fan1: 1423 RPM
Aug 18 17:42:18 vriksha sensord: temp1: 43.0 C
Aug 18 17:42:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 17:42:18 vriksha sensord: Adapter: ISA adapter
Aug 18 17:42:18 vriksha sensord: cpu_fan: 0 RPM
Aug 18 17:45:01 vriksha CRON[6142]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:55:01 vriksha CRON[6431]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:05:01 vriksha CRON[6607]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:09:52 vriksha kernel: [ 3459.913711] perf: interrupt took too long (2529 > 2500), lowering kernel.perf_event_max_sample_rate to 79000
Aug 18 18:12:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 18:12:18 vriksha sensord: Adapter: PCI adapter
Aug 18 18:12:18 vriksha sensord: fan1: 1431 RPM
Aug 18 18:12:18 vriksha sensord: temp1: 40.0 C
Aug 18 18:12:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 18:12:18 vriksha sensord: Adapter: ISA adapter
Aug 18 18:12:18 vriksha sensord: cpu_fan: 0 RPM
Aug 18 18:15:01 vriksha CRON[6785]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:17:01 vriksha CRON[6825]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Aug 18 18:25:01 vriksha CRON[6967]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Run Code Online (Sandbox Code Playgroud)
在上述消息的最后一行 (in syslog
) 之后,系统冻结了。我不得不重新设置重新启动。这在新内核中再次发生。
系统详情:
CPU-1700X Ryzen, No SMT, BIOS version- 3401 dated 12/08/2017 (AGESA 1071)
RAM 32 GB
AMD RX 470 GPU
Lubuntu 16.04 LTS, LXDE with Openbox
Run Code Online (Sandbox Code Playgroud)
有人可以帮我吗。
更新
我正在运行的应用程序没有使用gcc
, g++
。
lspci
输出在这里。
dmesg | egrep 'drm|radeon'
输出在这里
(root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
与sysstat
我删除的包有关。问题仍然存在。
glxinfo | grep -i open
AMD RX 470 GPU 的输出如下
glxinfo | grep -i open
OpenGL vendor string: X.Org
OpenGL renderer string: Gallium 0.4 on AMD POLARIS10 (DRM 3.15.0 / 4.12.8-041208-generic, LLVM 4.0.0)
OpenGL core profile version string: 4.5 (Core Profile) Mesa 17.0.7
OpenGL core profile shading language version string: 4.50
OpenGL core profile context flags: (none)
OpenGL core profile profile mask: core profile
OpenGL core profile extensions:
OpenGL version string: 3.0 Mesa 17.0.7
OpenGL shading language version string: 1.30
OpenGL context flags: (none)
OpenGL extensions:
OpenGL ES profile version string: OpenGL ES 3.1 Mesa 17.0.7
OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.10
OpenGL ES profile extensions:
Run Code Online (Sandbox Code Playgroud)我只将一台显示器连接到这台计算机。只有在长时间运行 CPU 密集型任务时才会发生崩溃。(我在关闭显示器的情况下离开系统,控制它,通过 SSH 连接检查它。大约 5-6 小时后,SSH 连接变得不可用。回到机器后,移动鼠标和键盘不做任何事情来显示回来。需要硬重置)。
为了检查这是否是 GPU 的原因,我改用了 nVidia GTX 1080,为此我安装了专有驱动程序,但仍然在类似的负载下,系统死机。我改回AMD GPU,问题仍然存在。由于 GPU 构建类型,我排除了这种行为。对于 nVidia 卡,glxinfo | grep -i open
输出如下;
OpenGL vendor string: NVIDIA Corporation
OpenGL renderer string: GeForce GTX 1080/PCIe/SSE2
OpenGL core profile version string: 4.5.0 NVIDIA 384.81
OpenGL core profile shading language version string: 4.50 NVIDIA
OpenGL core profile context flags: (none)
OpenGL core profile profile mask: core profile
OpenGL core profile extensions:
OpenGL version string: 4.5.0 NVIDIA 384.81
OpenGL shading language version string: 4.50 NVIDIA
OpenGL context flags: (none)
OpenGL profile mask: (none)
OpenGL extensions:
OpenGL ES profile version string: OpenGL ES 3.2 NVIDIA 384.81
OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.20
OpenGL ES profile extensions:
Run Code Online (Sandbox Code Playgroud)
小智 4
我遇到了同样的问题...我做了什么来解决这个问题:
表现:
sudo cpufreq-set -r -g performance
Run Code Online (Sandbox Code Playgroud)
设置开机启动:
sudo apt-get install cpufrequtils
echo 'GOVERNOR="performance"' | sudo tee /etc/default/cpufrequtils
sudo systemctl disable ondemand
Run Code Online (Sandbox Code Playgroud)
小智 1
我有和你一样的问题。锐龙 1800x
我建议你:
重新启用 SMT - 无需禁用它。
返回到 Ubuntu 16.04 的正常当前内核,当前为 4.4.0-93
禁用 BIOS 中的所有“节能”全局 C 状态选项。
也禁用 Cool n Quiet 选项。
为了稳定性,建议将 SoC 的电压增加到 1.1。如本视频所述:https://www.hardocp.com/news/2017/05/01/how_to_stabilize_your_amd_ryzen_memory_cpu_overclocking_attempts
如果您对 CPU 造成压力或闲置,则上述建议有效。
在 AMD 网站上为您的显卡下载最新的 AMD 驱动程序。您还可以通过“软件和更新”下的“其他驱动程序”尝试最新的开源驱动程序。我首先推荐这个选项。
在执行上述操作之前,只需将 BIOS 重置为默认值并检查是否有更新的版本可用。
归档时间: |
|
查看次数: |
7039 次 |
最近记录: |