当我不知道从哪里开始时,如何进行故障排除?

Chr*_*ton 39 windows-7 troubleshooting hardware-failure system-recovery community-faq

我正在寻找有关如何在以下情况下开始故障排除的提示、技巧和答案:

  1. 问题是间歇性的
  2. 问题可能出在任何地方——操作系统;免费源软件;我自己的软件开发;购买的软件;键盘上的碎屑;我目前运行的软件的具体组合;麦克斯韦妖;实际运行机器的小蓝人罢工了;等等。
  3. 我只在可能导致问题原因的几个领域中拥有专业知识。

下面以我遇到的具体问题为例进行了详细说明,但我不是在寻求当前问题的答案,而是从何处以及如何开始解决此类问题。

我目前在使用新机器时遇到问题。有几次机器刚刚冻结;不接受按键、鼠标点击或除电源开/关开关以外的任何东西。我总是只是浏览网页;我运行了一些(<= 6 个其他应用程序)。这些应用程序都不是主要的。并代表商业程序和开源程序的混合,通常从某种类型的 Unix 迁移而来。

我的机器是 Windows 7 I7 四核笔记本电脑。

编辑:

虽然我说实际问题描述只是一个例子,但有些评论是专注于解决这个问题的。不幸的是,由于这只是一个例子,所提供的信息是正确的,但并不完整。为了避免人们浪费时间远程尝试帮助解决实际问题,我提供了一些有关我的设置的其他信息。正如我最初所说,我不是在寻求这个特定问题的答案。

我的机器是一台大功率的笔记本电脑;是我的主机;用于开发和技术写作、通信 - 电子邮件、网络、FTP 等,以及照片编辑和索引。至少每月都会在其上运行一套严格而广泛的硬件测试程序,包括 CPU 测试、多个内存测试以及对所有其他组件的测试。还至少每月运行一次完整的病毒扫描;完整的间谍软件扫描;磁盘清理;和磁盘碎片整理。

该磁盘包含大约 3*10^6 个文件;磁盘使用量为 300 Gb,剩余 150 Gb 可用。内存为 8 Gb。虽然当我运行完整的主要开发工具时,机器会稍微有点热,但我只有在非常轻松地使用机器时才会遇到问题 - 网页浏览加 Textpad 加 Graphviz 加一个 Firebird 数据库加一个轻量级数据库浏览器(Flame Robin )。在这种情况下,即使是风扇也不暖和。在遇到问题期间,我没有对软件、操作系统或硬件进行任何更改。已经发生了许多自动更新 - 主要但不是唯一的 Microsoft、Adobe 和联想。

这种背景将(我希望)我以我的方式提出这个问题的原因置于上下文中。作为缩小调查范围的第一步,我现在将开始调查答案中提到的各种日志。我将在我的调查中尝试一项练习,其中一项练习是我迄今为止收到的答案中建议的特征之一——耐心。

Tam*_*man 42

得到一个更好的主意。

如果没有足够的现场信息,您将无法赢得一场战斗。

  1. 详细描述您的问题,以便您对它有一个好主意,谁知道它只发生一次。

  2. 及时回溯问题之前发生的事情以及您和您的计算机的问题。

  3. 想想可能的原因,因为有时它可能并不明显。

  4. 在您不知道发生了什么时获取更多信息,范围可以从事件SysInternals 工具性能分析调试您的专业知识中的任何其他工具

  5. 测试您的假设以确保您的想法不会过滤掉原因。

分而治之。

因为这就是军队在寡不敌众的情况下击败对手的方式

消除可能的原因,否则您将无法跟踪问题。这样,您将越来越接近问题的根本原因,它让您更轻松地解决问题。

例如,对于硬件,断开并删除解决问题不需要的任何东西。这样,您可能会断开导致问题的组件。然后又是插入一半组件的问题,检查它是否再次出现并重复拆分直到你有坏组件......

如果可以的话,在另一台计算机上测试一些东西也是解决问题的一个很好的好处。

例如,对于软件,重新启动到安全模式、禁用启动条目也有帮助。这也适用于启用/禁用设置、尝试默认配置等...

让我们来测试一下。

我目前在使用新机器时遇到问题。有几次机器刚刚冻结;不接受按键、鼠标点击或除电源开/关开关以外的任何东西。我总是只是浏览网页;我运行了一些(<= 6 个其他应用程序)。这些应用程序都不是主要的。并代表商业程序和开源程序的混合,通常从某种类型的 Unix 迁移而来。

  1. 这本身就是一个正确的描述,它也不会只发生一次

  2. 您知道与问题一起发生了什么,
    没有想到您或您的计算机在出现问题之前所做的事情

    我不能告诉你,但是你,你的事件日志和最近修改的文件/文件夹可以告诉你。

  3. 可能的原因很可能与 CPU 相关,因为它是处理事物的组件。

    更具体地说,这可能是一个进程、驱动程序或故障硬件(也许是温度问题?)。

  4. 我知道它是 CPU,但不知道是什么。事件不显示这一点,进程资源管理器将挂在DPC 上

    因此,下一步,我让跟踪分析运行,并在挂起发生后关闭。

    我查看了跟踪,发现驱动程序 X 导致了问题

  5. 没有做出真正的假设。CPU 假设由我们的分而治之方法处理......

所以,这就是我开始分裂以克服问题的地方,一旦解决我就停下来:

  1. 当前版本的驱动程序有问题?
    将驱动程序更新到最新版本。

  2. 最新版本的驱动有问题吗?
    获得新的踪迹。将驱动程序更新到与初始版本不同的旧版本。

  3. 设备有问题?注册表中的配置问题?
    获得新的踪迹。如果可能,重新安装和/或禁用设备。

  4. 问题是随机的,是处理器发热吗?
    检查处理器温度,必要时更换风扇。

  5. 问题不是处理器,还有其他软硬件影响吗?
    移除硬件并禁用软件运行,以消除第三方影响。

  6. 问题不在可拆卸部件上,应该更换。
    在最坏的情况下,如果所有其他方法都失败了,您需要更换。

获取新的痕迹并移除硬件为我们提供了更多信息,因此我们知道下一步该往哪里看。

  • +1 精彩的回答。唯一要补充的是:测试你的假设 (5认同)
  • +1 分而治之。接受描述规范、追溯和分治问题的机制。 (4认同)
  • @Florenz:好吧,通过将它们一一分开(对于少量,或者当您不能基于多种原因时)或将它们分开(对于较大的数量,当您可以在一次。如果可能,分成两半比一件一件做更快。例如,要解决 100 件事,您只需要对其进行 8 次测试 (100-&gt;50-&gt;25-&gt;13-&gt;7-&gt; 4-&gt;2-&gt;1),而不是 100 次... (2认同)
  • 明智的划分!我的意思是“不要在将更改归因于观察到的增量之前更快地修复东西”。使用带有我无法撕掉的页面的实验书是我确保我可以做到的方法。 (2认同)

JRo*_*ert 6

好的日志和直觉 - 真的。

  • 从第 1 天开始,跟踪您对系统所做的一切:应用程序和操作系统更新、新安装、新的或移除的硬件或连接、“没有引起问题”的雷暴。
  • 当你第一次注意到这个问题时:
    • 你一直在做什么?
    • 最近还有什么不寻常的事情发生?
    • 你最近做了什么不同的事情?
    • 从那时起,请注意您在做什么,以便下次发生时,您可以更好地处理之前发生的事情。
    • 快照系统日志。
  • 看看你能不能重现它。在您可以重现它之前,您无法找到它。
  • 开始对系统进行分区:安全模式与实时运行,新帐户与常规帐户,与常规帐户不同的键盘和鼠标(特别是蓝牙与有线),它是否在启动或唤醒后几分钟内发生与未启动或唤醒后几分钟内发生?仅在运行一个多小时后(想想热量)。

  • +1 用于记录活动;和直觉。不是公认的答案,因为只有从第一天开始记录才好。我一直在保留日志,但不够详细;并且不包括来自 Microsoft 的系统更新和其他自动更新。 (2认同)