Wuc*_*cka 21 networking troubleshooting performance
我们都曾抱怨“网络”在某些时候“慢”:可能被本地化到一个房间(交换机)或一台计算机,可能只是互联网(DNS?浏览器问题?),可能只是一个应用程序(长时间运行的 SQL 查询?正在运行 AV 扫描?)。
当您排除了明显的系统和/或应用程序问题后,您将如何测试网络的缓慢或不稳定行为?你在 OSI 层上工作吗?如果是这样,如何检查每一层?您如何确保物理网络在未知环境中正常运行?广播过多或广播风暴怎么办?第 3 层及以上?跟踪路由?任何其他提示,方法,想法?适用于各种规模网络的必备功能和工具(端口镜像、SNMP、监控等)?
Joe*_*l K 10
tcpdump 和wireshark 是你的朋友。
我发现在“慢”网络与“好”网络的线路上观察数据包通常可以查明问题。
“慢”有很多种。
您可以使用 SmokePing 等工具跟踪本地和 Internet 站点的延迟。(SmokePing 可以配置为跟踪 ICMP 延迟以及 TCP 服务的服务延迟)
您的交换机应该跟踪广播数据包与单播数据包。绘制该比率。
我还喜欢监视跟踪路由(检查我自己的“重要”站点之间的 ISP 跃点的域名)。
我希望这些评论有帮助。
很难给出具体的答案,因为这份工作的 90% 是经验,它教你在哪里寻找哪种问题,而另外 90% 是知道在谷歌上寻找哪里来获得从哪里开始的提示。
我通常会尝试纸袋式的东西,比如让客户演示问题(主要是为了排除手指问题和客户描述问题时可能遇到的任何问题),然后尝试在另一台计算机上复制问题。这样做通常可以让您深入了解去哪里寻找。
不要忘记重新启动的纠正问题,尤其是对于 Windows 系统,即使在今天也是如此。过去常常是这样,我会问人们“你重启了吗?好吧,试试这个,如果问题仍然存在,请告诉我”——这解决了我被问到的很大一部分问题。
在 DNS 解析问题和基本连接(路由器上的 ACL、网络中的气隙、到远程站点的 ping/traceroutes/mtrs 等)方面,也经常有一些悬而未决的成果。
对于您可以直接控制的服务,运行 nagios 或其他确保服务实际运行的东西经常会触发您在客户告诉您之前解决问题。您可能还希望运行统计信息收集,或者直接通过 munin 或其他方式,或者通过 SNMP 到 Cacti 之类的东西。
我通常尝试让 Cacti 至少运行在我所有的核心交换机和防火墙上;在可能的情况下,我会尽可能地使用 Cacti。在这些情况下,我通常会寻找诸如端口错误计数或过多流量之类的东西。某些设备的防火墙图表可以显示 CPU 使用率和并发会话;您将了解您的防火墙设备在什么阈值下开始出现问题。
您的防火墙可能能够登录到系统日志设备;如果是这样,请记录所有可以记录的内容并查看提示。如果您运行诸如 syslog-ng 或 rsyslog 或 splunk 之类的东西,这将更容易让您对日志进行一定程度的划分,而不是处理一个单一的文件。
我还尝试至少在我的防火墙内部运行 nfsen,并在可能的情况下连接到 Internet 提供商的上行链路。这让您可以及时返回查看会话以查看谁在做什么;这有时可以捕捉到有趣的行为。
以下是一些用于排除延迟和其他网络问题的有用工具:
归档时间: |
|
查看次数: |
43525 次 |
最近记录: |