LINUX:如何诊断/隔离导致“随机”挂起和自发重启的原因?

LRE*_*LRE 20 linux crash ubuntu-9.10 ubuntu

(最初发布在serverfault 上

因此,与其猜测原因是什么(尽管我的钱都花在了 nvidia 驱动程序上),不如从哪里开始寻找一些事实?

我已经多次访问 /var/log 但里面有很多东西,我(还)不能发现重要的部分。


背景:简短版本

在 WinXP 可用后,我就从它转移到了 Ubuntu Karmic。

从那以后,我发生了一系列看似随机的崩溃,表现为:

  • 自发重启
  • 完全锁定,我的 USB 键盘和鼠标变得无响应(直到 LED 全部关闭)。此外,发生这种情况时,我通常无法通过 ssh 连接到该框。

我已经进行了大量搜索,Nvidia 似乎是主要嫌疑人,但我不知道从哪里开始寻找真正的原因。

serverfault 用户建议使用 MemtextX86+ 检查 RAM。没有发现错误。也有人建议监控显卡温度,我现在正在研究。

除了,建议任何人?



背景:长版

有时,我可以整整一周都没有崩溃,然后在 2 天内有 5 个。

出于消除可能的嫌疑人的愿望,我随着时间的推移做了一些改变,但无济于事:

  • 本来我用KVM做虚拟化,现在用VirtualBox OSE
  • 我在内核中运行 NFS,但现在使用 Samba
  • 我正在使用 Compiz 但此后已将其关闭
  • 我已经从 64 位 Karmic 转为 32 位(也出于其他原因)
  • 我试过 Ubuntu、Kubuntu 和 Xubuntu。每次都遇到同样的麻烦(尽管最近在 Gnome 中似乎比在 XFCE 中更频繁)。
  • 我将 Nvidia 驱动程序从版本 185 回滚到版本 96(NVIDIA Linux x86 内核模块 96.43.13 Thu Jun 25 18:42:21 PDT 2009)。这似乎减少了出错的频率。


就当时正在运行的内容而言,这可能会有所不同。以下是常见的,但不一定在每次崩溃时都运行:

  • 火狐 3.5
  • 带有 1 或 2 个 Windows XP VM 的 VirtualBox OSE
  • Skype
  • Rhythmbox 或 Exaile


我的硬件是 2 - 3 岁:

  • 酷睿 2 双核 6300
  • 4GB 内存
  • 那个年代的某种英特尔主板
  • 带有 Nvdia GeForce 7300 GS 芯片组的 Asus 双头显卡
  • 2 个 SATA 硬盘
  • 双显示器(因此我依赖专有的 nvidia 驱动程序)


我一直在关注我的系统更新。

希望上面的数据可能会提示某人建议值得研究的特定类型的日志或配置。


更新 1

刚刚发生碰撞,扬声器发疯了。做了一些谷歌搜索,似乎 PulseAudio 过去有一些问题。不确定这是否相关,但每次我发生崩溃时 PulseAudio 都会运行。


更新 2

按照@CarlF 指向 Debian 系统管理员指南的链接,我找到了神奇的 sysrq 密钥,我将在下次崩溃时尝试使用该密钥。并不是说这会给我很多关于原因的线索,但至少我希望能够优雅地关闭。


更新 3

lm-sensors 报告我的 GPU 运行在接近 70C / 158F - 有趣。如果让我猜的话,我会说这是一个重要的线索。


更新 4

在我上次更新后不久用空气除尘器击中系统内部 - 最终结果:从那时起只有一次崩溃。我将称之为热问题。

Car*_*rlF 8

这里的 Debian 管理员指南提供了很好的建议:http : //www.debian-administration.org/articles/492