网络吞吐量问题(ARP相关)

Joe*_*oel 9 networking performance arp

我工作的小学院有一些非常奇怪的网络问题。我在这里寻找任何建议或想法。整个夏天我们都很好,但在秋季学期学生返回校园后几天,麻烦就开始了。

症状

主要症状是互联网访问可以工作,但速度非常慢......经常到超时点。例如,Speedtest.net 的典型结果将返回 0.4Mbps 的下载速度,但允许 3 到 8 Mbps 的上传速度。较轻的症状可能包括与我们的文件服务器之间传输数据的性能严重受限,甚至在某些情况下无法登录计算机(无法访问域控制器)。该问题跨越多个 vlan,并且影响了我们操作的几乎每个 vlan 上的设备。

该问题不会影响网络上的所有机器。一台未受影响的机器通常会从 speedtest.net看到至少11Mbps 的下载速度,而且可能更多,这取决于当时更大的校园流量模式。

在更大的问题上有一种变体。我们有一个 vlan,用户根本无法登录到几乎所有的机器。IT 人员将使用本地管理员帐户(或在某些情况下缓存的凭据)登录,然后发布/更新或 ping 网关将允许机器工作......一段时间。使这个问题复杂化的是,这个 vlan 覆盖了我们的计算机实验室,它使用称为 Deep Freeze 的软件在重新启动后完全重置硬盘驱动器。由于机器上的陈旧数据几周都没有永久更改低级信息,因此相同的问题可能会以不同的方式表现出来。然而,我们能够通过创建一个新的 vlan 并将实验室转移到新的 vlan 批发来解决这个问题。

教唆

最终我们注意到受影响的机器都有最近的 dhcp 租用。我们可以通过观察 dhcp 租约何时更新来预测机器何时会变得“慢”。我们尝试将测试 vlan 的租用时间设置得非常短,但这只是消除了我们预测机器何时变慢的能力。具有静态 IP 的机器几乎总是正常工作。手动释放/更新地址永远不会导致机器变慢。事实上,在某些情况下,这个过程已经修复了处于这种状态的机器。然而,大多数时候,它没有帮助。我们还注意到,像笔记本电脑这样的移动机器在跨入新的 vlan 时可能会变慢。校园内的无线网络被划分为“区域”,其中每个区域都映射到一小组建筑物。搬到新建筑可以让您进入一个区域,从而使您获得一个新地址。从睡眠模式恢复的机器也很可能很慢。

缓解措施

有时,但并非总是如此,清除受影响机器上的 arp 缓存将使其再次正常工作。如前所述,释放/更新本地机器的 IP 地址可以修复该机器,但不能保证。Ping 默认网关有时也可以帮助处理速度较慢的机器。

似乎最有助于缓解问题的是清除核心第 3 层交换机上的 arp 缓存。此交换机用于我们的 dhcp 系统作为所有 vlan 上的默认网关,并处理 vlan 间路由。型号为 3Com 4900SX。为了尝试缓解这个问题,我们在交换机上一直设置缓存超时到尽可能低的时间,但这并没有帮助。我还编写了一个脚本,每隔几分钟运行一次,以自动连接到交换机并重置缓存。不幸的是,这并不总是有效,甚至可能导致某些机器在短时间内处于缓慢状态(尽管这些似乎在几分钟后会自行纠正)。我们目前有一个每 10 分钟运行一次的预定作业,以强制核心交换机清除其 ARP 缓存,但这远非完美或可取。

再生产

我们现在有一台可以随意强制进入慢速状态的测试机。它连接到为我们的每个 vlan 设置端口的交换机。我们通过连接到不同的 vlan 使机器变慢,并且在连接一两个新连接后它会变慢。

在本节中还值得注意的是,这在先前条款开始时发生过,但在过去,问题在几天后自行消失。它在我们有机会进行大量诊断工作之前就自行解决了……这就是为什么我们这次允许它拖到术语中这么长时间;人们期望这将是一种短暂的情况。

其他因素

值得一提的是,去年我们有大约六台交换机完全失败。这些主要是 2003/2004 时代的 3Coms(主要是 4200 年代),它们几乎都是在同一时间投入使用的。它们仍应在保修范围内,购买 HP 使获得服务有些困难。主要是在出现故障的电源中,但在一些情况下,我们使用了来自带有故障主板的交换机的电源来使带有故障电源的交换机恢复正常。现在除了四个交换机中的三个之外,我们确实在所有交换机上都有 UPS 设备,但是当我两年半前开始时情况并非如此。严重的预算限制(几年前我们在 Ed 的经济困难机构名单上)迫使我寻找 Netgear 和 TrendNet 之类的替代品,

还值得一提的是,今年夏天我们网络的重大变化是从单一的跨校园无线 SSID 迁移到前面提到的分区方法。我不认为这是问题的根源,就像我说的:我们以前见过这个。但是,这可能会加剧问题,这可能是很难隔离的主要原因。

诊断

起初我们似乎很清楚,考虑到问题的时间性和持续性,问题的根源是受感染(或恶意)的学生机器进行 ARP 缓存中毒。但是,多次尝试隔离源都失败了。这些尝试包括大量的wireshark数据包跟踪,甚至使整个建筑物短时间离线。我们甚至无法找到确凿的错误 ARP 条目。我目前的最佳猜测是核心交换机过载或出现故障,但我不确定如何对此进行测试,并且盲目更换它的成本很高。

再次,任何想法表示赞赏。

更新:
更换了核心交换机。4 天后,一切运行良好……但我会等待两周时间,然后才称问题已解决。

小智 2

乔尔,

由于您已经设置了中继,并且可以随意重复问题。在笔记本电脑上安装 Wireshark 并镜像/跨越上行链路端口。如果您看到数据包速率超过 10,000 或端口利用率接近最大速度,则说明有问题。

您可能遇到硬件/生成树问题。通常我发现用户在他们的机器上插入两个网卡“以获得更多的吞吐量”。

通常,对于生成树问题,您可以在供应商的每个端口上打开环路检测或广播限制。这将杀死任何发现环路的端口。您还可以打开“bpdu 保护”,这意味着禁用接收 bpdu 的端口并向 syslog/snmp 陷阱接收器抛出错误。