Clevo N850EL 频繁崩溃/冻结 Ubuntu 18.04.1

use*_*553 2 hardware kernel freeze drivers 18.04

我刚买了一台全新的蓝天 N850EL(在某些地区也可以称为 Prostar 或 Sager NP4850),CPU i7-8750H,32GB RAM。

\n\n

Ubuntu 18.04.1 安装正常,并且似乎运行良好(在我工作、打字、安装和删除软件的情况下),直到在一段随机时间后(45 分钟+/- 30 分钟后)崩溃。

\n\n

(它同时具有 NVIDIA MX150 和 Intel HD 显卡。我相信我在 Ubuntu 下使用 Intel HD 显卡运行)。

\n\n

崩溃是完全冻结(鼠标不动,TCP / IP 连接冻结并中断,Ctrl++AltDel响应,必须按电源按钮 5 秒钟重新启动)。

\n\n

/var/log/syslog或没有异常条目/var/log/kern.log冻结后

\n\n

所以,这只是一个神秘的崩溃“冻结”,没有我所知的日志/跟踪。

\n\n

(编辑:2018-08-25 我启用了SysRq,但网络服务也被冻结,所以我无法远程ssh请求SysRq,并且键盘Alt++SysRqcommand似乎也被冻结)。

\n\n

第一天,在运行这台电脑附带的 Windows 10 时,它显然也遇到了同样的问题。

\n\n

但当我升级到Windows 10 1803(提示的所有累积补丁,以及多次重启)后,问题就消失了。现在在 Windows 10 1803 下完全稳定。

\n\n

看起来像是 Linux 下的“新硬件”问题,Windows 最近已经克服了。

\n\n

我应该怎么办 ?我应该尝试在 Ubuntu 中使用上游内核吗?(哪一个?)(有没有 USB 笔版本的 Ubuntu,我可以使用较新的内核运行一整天,只是为了看看问题是否来自内核?我应该去启动板并打开一个问题吗?)

\n\n

(我真的不想在 Windows 下工作......:-(

\n\n

编辑:内核是 4.15.0-32-generic

\n\n
# lspci\n00:00.0 Host bridge: Intel Corporation Device 3ec4 (rev 07)\n00:01.0 PCI bridge: Intel Corporation Skylake PCIe Controller (x16) (rev 07)\n00:02.0 VGA compatible controller: Intel Corporation Device 3e9b\n00:08.0 System peripheral: Intel Corporation Skylake Gaussian Mixture Model\n00:12.0 Signal processing controller: Intel Corporation Device a379 (rev 10)\n00:14.0 USB controller: Intel Corporation Device a36d (rev 10)\n00:14.2 RAM memory: Intel Corporation Device a36f (rev 10)\n00:16.0 Communication controller: Intel Corporation Device a360 (rev 10)\n00:17.0 SATA controller: Intel Corporation Device a353 (rev 10)\n00:1d.0 PCI bridge: Intel Corporation Device a330 (rev f0)\n00:1d.5 PCI bridge: Intel Corporation Device a335 (rev f0)\n00:1d.6 PCI bridge: Intel Corporation Device a336 (rev f0)\n00:1f.0 ISA bridge: Intel Corporation Device a30d (rev 10)\n00:1f.3 Audio device: Intel Corporation Device a348 (rev 10)\n00:1f.4 SMBus: Intel Corporation Device a323 (rev 10)\n00:1f.5 Serial bus controller [0c80]: Intel Corporation Device a324 (rev 10)\n01:00.0 3D controller: NVIDIA Corporation GP108M [GeForce MX150] (rev a1)\n02:00.0 Non-Volatile memory controller: Samsung Electronics Co Ltd Device a808\n03:00.0 Network controller: Intel Corporation Device 2526 (rev 29)\n04:00.0 Unassigned class [ff00]: Realtek Semiconductor Co., Ltd. RTL8411B PCI Express Card Reader (rev 01)\n04:00.1 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller (rev 12)\n
Run Code Online (Sandbox Code Playgroud)\n\n

编辑2018-08-24:升级到内核44.15.0-33-generic。问题仍然是一样的。

\n\n

以控制台模式启动(GRUB 选项 systemd.unit=rescue.target),以 root 身份从命令行打开网络管理器和 WiFi(请参阅https://help.ubuntu.com/community/NetworkManager),并复制一些文件网络几个小时。

\n\n

在控制台模式下不会出现此问题。\n我没有从控制台模式对系统施加太多负载,但我设法从网络复制了几 GB 的文件,并且正常运行时间超过 8 小时,并提供了一些服务和正在运行的进程,我想我可以假设在控制台模式下不会发生相同的崩溃/冻结。

\n\n

安装了nvidia-driver-390专有驱动程序,并使用以下命令切换到 NVIDIA:

\n\n
sudo ubuntu-drivers devices\nsudo ubuntu-drivers autoinstall\nsudo prime-select nvidia\nsudo reboot\nnvidia-settings # just to check that it seems installed\n
Run Code Online (Sandbox Code Playgroud)\n\n

问题仍然相同nvidia-driver-390

\n\n

切换回 intel,并将 noveau 内核驱动程序列入黑名单:

\n\n
sudo prime-select intel\nsudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf"\nsudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"\nsudo update-initramfs -u\nsudo reboot\n
Run Code Online (Sandbox Code Playgroud)\n\n

禁用 noveau 后,英特尔视频驱动程序的问题仍然存在。

\n\n

它无法识别 WiFi 适配器,但它在 GNOME 桌面模式下似乎稳定了几个小时(我让它运行了 2 小时 30 分钟,同时通过有线以太网将一些 GB 的文件复制到磁盘)。\n(稍后尝试返回到此) Debian 测试表明它也经常崩溃/冻结。)

\n\n

但是,充满了新的希望,我决定尝试上游内核(请参阅https://wiki.ubuntu.com/Kernel/MainlineBuilds

\n\n

首先我尝试了内核 4.17.19-generic amd64。正常运行时间的前 5 分钟内崩溃/冻结。(再次...问题仍然相同)..

\n\n

然后我尝试了内核 4.18.5-generic amd64。它似乎运行正常几个小时(超过 2 小时),但随后冻结并重新启动。第二天进行更多测试,问题似乎仍然存在(并且总是在重新启动时崩溃)。\n(我尝试禁用 WiFi,并仅使用有线以太网,但问题最终再次发生。旁注:我似乎热重启后通过 DHCP 松开有线以太网)。

\n\n

(旁注 2:同时,我将 noveau 驱动程序取消列入黑名单,因为它导致 中出现相关超时错误/var/log/kern.log。“传感器”实用程序报告 3D 适配器上的温度为 511\xc2\xbaC :-)

\n\n

编辑2018-08-26 kdump:我尝试配置kdump(如https://help.ubuntu.com/lts/serverguide/kernel-crash-dump.html),但是,当我在图形模式下测试它时,我得到kdump中描述的完全相同的问题不会记录崩溃(系统冻结,没有消息,没有重新启动,没有崩溃转储/var/crash/)。

\n\n

如果我在控制台模式下触发内核崩溃

\n\n
echo c > /proc/sysrq-trigger\n
Run Code Online (Sandbox Code Playgroud)\n\n

然后我在控制台上看到崩溃消息,并且它们会/var/log/syslog在下次重新启动时部分记录。下仍然没有崩溃转储/var/crash

\n\n

所以我有点失落。我应该尝试什么?

\n\n

编辑 2018-08-27:\n我没有发现 DRAM 内存错误(memtest86.com 运行了一整晚 - 6 小时 16 分钟),也没有发现任何错误。

\n\n

UEFI 启动被禁用。

\n\n

我在http://cdimage.ubuntu.com/daily-live/20180827/cosmic-desktop-amd64.iso下载了 Ubuntu 18.10 每日版本,并将其用作实时 USB 笔几分钟,但崩溃了/像平常一样冻结。

\n\n

(PS:在 18.10 GNOME 控制面板中,我看不到正在使用哪个显卡。当我询问“信息”项时,它崩溃/冻结了)。

\n\n

有没有办法使用有限的 VESA 图形模式?(我已尝试在 Ubuntu 16.10 中强制使用 VESA 驱动程序,但没有成功)。

\n\n

编辑2018-08-28:添加用户abu_bua请求的信息:

\n\n
root@jpsl-N8xxEL:~# hwinfo --cpu | grep -Ei "model\\:|Features\\:|Config Status\\:" -m 4\n  Model: 6.158.10 "Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz"\n  Features: fpu,vme,de,pse,tsc,msr,pae,mce,cx8,apic,sep,mtrr,pge,mca,cmov,pat,pse36,clflush,dts,acpi,mmx,fxsr,sse,sse2,ss,ht,tm,pbe,syscall,nx,pdpe1gb,rdtscp,lm,constant_tsc,art,arch_perfmon,pebs,bts,rep_good,nopl,xtopology,nonstop_tsc,cpuid,aperfmperf,tsc_known_freq,pni,pclmulqdq,dtes64,monitor,ds_cpl,vmx,est,tm2,ssse3,sdbg,fma,cx16,xtpr,pdcm,pcid,sse4_1,sse4_2,x2apic,movbe,popcnt,tsc_deadline_timer,aes,xsave,avx,f16c,rdrand,lahf_lm,abm,3dnowprefetch,cpuid_fault,epb,invpcid_single,pti,ssbd,ibrs,ibpb,stibp,tpr_shadow,vnmi,flexpriority,ept,vpid,fsgsbase,tsc_adjust,bmi1,avx2,smep,bmi2,erms,invpcid,mpx,rdseed,adx,smap,clflushopt,intel_pt,xsaveopt,xsavec,xgetbv1,xsaves,dtherm,ida,arat,pln,pts,hwp,hwp_notify,hwp_act_window,hwp_epp,flush_l1d\n  Config Status: cfg=new, avail=yes, need=no, active=unknown\n  Model: 6.158.10 "Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz"\nroot@jpsl-N8xxEL:~# lspci -knn | grep -i vga -A3\n00:02.0 VGA compatible controller [0300]: Intel Corporation Device [8086:3e9b]\n    Subsystem: CLEVO/KAPOK Computer Device [1558:8555]\n    Kernel driver in use: i915\n    Kernel modules: i915\n
Run Code Online (Sandbox Code Playgroud)\n

abu*_*bua 5

尝试使用内核参数: intel_idle.max_cstate=1

\n

执行以下步骤:

\n
    \n
  • sudo nano /etc/default/grub
  • \n
  • 将该行替换 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"GRUB_CMDLINE_LINUX_DEFAULT="quiet splash intel_idle.max_cstate=1"
  • \n
  • 保存(CTRL+O)
  • \n
  • sudo update-grub
  • \n
  • sudo reboot
  • \n
\n

通过以下方式确认允许的最大 CPU C 状态:

\n
 cat /sys/module/intel_idle/parameters/max_cstate\n
Run Code Online (Sandbox Code Playgroud)\n

更多信息请访问https://bugzilla.kernel.org/show_bug.cgi?id=109051

\n
\n

简短描述++

\n

为了在CPU空闲时节省能源,可以命令CPU进入低功耗模式。每个 CPU 都有多种电源模式,它们统称为C-statesC-modes.

\n

这些模式的想法是切断 CPU 内部空闲单元的时钟信号和电源。当您降低电压甚至完全关闭以节省能源时,您会停止(通过切断时钟)尽可能多的设备。另一方面,您必须考虑到 CPU 需要更多时间来 \xe2\x80\x9c 唤醒 \xe2\x80\x9d 并再次 100% 运行。这些模式称为C 状态。它们通常以C0 启动,这是CPU 的正常工作模式,即CPU 100% 打开。随着C数的增加,CPU的睡眠模式更深,即关闭更多的电路和信号,并且CPU将需要更多的时间返回到C0模式,即唤醒。每种模式也都有一个名称,其中一些模式具有不同的节能 \xe2\x80\x93 级别的子模式,因此唤醒时间 \xe2\x80\x93 级别也不同。

\n

c态

\n
\n

++ 来自https://gist.github.com/wmealing/2dd2b543c4d3cff6cab7/

\n