我的笔记本电脑每天随机重启两次。它在重新启动之前显示以下错误日志。
.
不幸的是,我不知道如何解码机器检查异常 (MCE)。mcelog --ascii
什么都不输出。这有可能是软件问题吗?
笔记本电脑是三星 NP900X3C,配备英特尔酷睿 i5-3317U 处理器。我使用带有 3.13.5 内核的 Arch Linux。
在尝试调试运行 Ubuntu 16.04 的新笔记本电脑(KabyLake 架构)的频繁死机时,我偶然发现了以下条目kern.log
:
kernel: [ 0.041634] mce: [Hardware Error]: Machine check events logged
Run Code Online (Sandbox Code Playgroud)
从那时起我已经安装了mcelog
但不知道如何处理日志。内容为/var/log/mcelog
:
mcelog: Family 6 Model 8e CPU: only decoding architectural errors
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 6
MISC 3880018086 ADDR fef1cf00
TIME 1479298799 Wed Nov 16 13:19:59 2016
MCG status:
MCi status:
Error overflow
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported …
Run Code Online (Sandbox Code Playgroud) 当我运行mcelog
(版本 154)时,我得到以下输出。
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor. Please use the edac_mce_amd module instead.
CPU is unsupported
Run Code Online (Sandbox Code Playgroud)
对我来说,这感觉像是一个类别错误,因为它mcelog
是一个应用程序,edac_mce_amd
也是一个内核模块。
此外,我确实加载了这个模块。lsmod
返回edac_mce_amd 28672 0
。
那么这个错误消息到底在说什么?我是否应该运行替代二进制文件以从我的 AMD 处理器获取 MCE,或者是否有办法使其mcelog
兼容?
其背景是,我大约每天都会突然崩溃一次,并且 中没有任何有罪的消息journalctl
,因此我试图查看是否有 MCE 可能会突出该问题。
我找到了一些文档,但看起来有点过时:
http://www.cyberciti.biz/tips/linux-server-predicting-hardware-failure.html
我看到我可以指定一个设备作为输入,但文档没有提到任何具体的内容。如果(例如)我想检测是否存在网络摄像头问题,我应该如何进行?
在开始时使用 systemd 单元运行 mcelog 也是一个好主意吗?如果是,我应该使用哪些选项?