执行根本原因分析

jft*_*uga 9 windows troubleshooting debugging

我想了解有关如何执行根本原因分析的更多信息。很多时候,我们的部门会告诉用户尝试重新启动(他们的 Windows XP 系统),这实际上“修复”了很多问题。当我赶时间时(有时按小时支付会为此做出贡献),我可能会尝试找到一种解决方法,以便快速解决问题,而不是实际执行根本原因分析。

大多数时候,我会在日志文件或事件查看器中查找此信息。有时我会使用 Sysinternals 工具或偶尔运行数据包嗅探器。我可能没有尽可能多地使用 Sysinternals 程序。关于如何使用这些工具、何时以及为何使用的一些具体见解也会有所帮助。

我知道这是一个非常开放的问题,但能否请您简要解释一下您使用的方法、工具等?SF 的很多管理员似乎使用了更深入的流程,我想了解更多。如果这有助于缩小问题的范围,那么我最感兴趣的是与 AD 环境中的 Windows 服务器和客户端相关的工具、提示、技巧等。

vor*_*aq7 5

找出问题的根本原因取决于问题——您最初查看日志文件/系统内部工具/数据包嗅探器的直觉通常是正确的。
我会添加在 Windows 系统上运行 MS 恶意软件删除工具和一个好的 AV 程序(并确保它们没有像 Cyber​​Defender 或其他 AV 木马恶意软件之类的东西。

Stack Exchange 的人是“5 个为什么”方法的支持者(http://en.wikipedia.org/wiki/5_Whys,也是这个很好的简短 PDF,展示了它的实际效果)。这是进行根本原因分析的非常有价值的工具。


除此之外,我将绘制两大类以及一些我经常问/检查的问题:

与网络无关的神秘行为,
例如“Word 一直在我身上崩溃”

要问的基本问题:

  1. 改变了什么?
    (不要以“无”作为答案——这是第一个谎言。新软件、补丁等都算数。)
  2. 遇到问题时你在做什么?
    (尝试在这里提取尽可能多的细节——在我上面的例子中“我按下了插入首字母的热键,程序崩溃了”)
  3. 它以前工作过吗?
    (如果是这样,请开始查看上面(1)中的内容)
  4. 你能在你的系统上重现这个问题吗?
    (如果是这样,这是一个好兆头:致电供应商的技术支持电话可能会有所帮助。如果没有,您将需要查看用户的系统以了解其余这些问题。)
  5. 用户环境与您的环境有何不同?
  6. 用户的硬件是否可疑(运行内存测试,从硬盘驱动器中查找 SMART 错误等)
  7. 如果你已经到了这一步(硬件检查,软件检查,没有病毒,没有恶意软件)去拜访用户一天。观察他们的工作习惯。
    我公司曾经有一个神秘的系统锁定,与以特定频率单击鼠标有关(我们仍然不知道为什么,但我们不得不看着用户这样做并练习一天才能能够重现它可靠)

与网络相关的问题

其中很多是相似的,但有一些更具体的指导。

  1. 改变了什么?
    (是的,你总是从那里开始)
  2. 什么破了?
    • 你能访问网页吗?是只有一个倒下吗?如果这样是对所有人还是对你
    • 你能通过名字在互联网上ping东西吗?
      怎么通过IP?traceroute 能走多远?
  3. 什么时候坏了?
    • 总是在一天中的同一时间?
    • 每 N 天短时间?
    • 随机(真的是随机的吗?把它在日历上......)
  4. 远程站点有什么奇怪的吗?
    • 查看 DNS - 如果它是循环的,则可能会出现远程损坏
    • 我们是在谈论 VPN 的另一端吗?VPN(日志!)怎么了?
  5. 本地站点有什么奇怪的吗?
    • 检查您的本地防火墙
    • 检查任何“过滤软件”
  6. 请与您的 ISP 联系以查看是否存在任何已知问题
  7. 检查诸如http://www.internetpulse.net/ 之类的站点以了解已知的全网问题
  8. 检查用户的机器
    (TCP 设置等 - 通常不是问题,但有时。)