注意:我已经有了解决这个问题的方法(如下所述),所以这只是一个“想知道”的问题。
我有大约 50 台主机的高效设置,包括运行 xen 4 的刀片和提供 iSCSI 的 equallogics。所有的 xen dom0s 几乎都是纯 Debian 5。设置包括每个 dom0 上的几个网桥,以支持 xen 桥接网络。每个 dom0 上总共有 5 到 12 个网桥,每个网桥为一个 vlan 服务。所有主机都没有启用路由。
有一次,我们将其中一台机器移到了一个新的硬件上,包括一个 raid 控制器,因此我们安装了一个带有 xen 补丁的上游 3.0.22/x86_64 内核。所有其他机器运行 debian xen-dom0-kernel。
从那时起,我们在设置中的所有主机上每隔约 2 分钟就会发现以下错误:
[55888.881994] __ratelimit: 908 callbacks suppressed
[55888.882221] Neighbour table overflow.
[55888.882476] Neighbour table overflow.
[55888.882732] Neighbour table overflow.
[55888.883050] Neighbour table overflow.
[55888.883307] Neighbour table overflow.
[55888.883562] Neighbour table overflow.
[55888.883859] Neighbour table overflow.
[55888.884118] Neighbour table overflow.
[55888.884373] Neighbour table overflow. …
Run Code Online (Sandbox Code Playgroud) 我在实验室中有 4 台机器的测试设置:
测试 linux 防火墙的性能,因为我们在过去几个月中受到了许多 Syn-Flood 攻击。所有机器都运行 Ubuntu 12.04 64 位。t1、t2、t3通过一个1GB/s的交换机互连,t4通过一个额外的接口连接到t3。所以t3模拟防火墙,t4是目标,t1,t2扮演攻击者通过产生一个packetstorm(192.168.4.199是t4):
hping3 -I eth1 --rand-source --syn --flood 192.168.4.199 -p 80
Run Code Online (Sandbox Code Playgroud)
t4 丢弃所有传入的数据包以避免与网关混淆、t4 的性能问题等。我在 iptraf 中查看数据包统计信息。我已将防火墙(t3)配置如下:
sysctl 如下:
net.ipv4.ip_forward = 1
net.ipv4.route.gc_elasticity = 2
net.ipv4.route.gc_timeout = 1
net.ipv4.route.gc_interval = 5
net.ipv4.route.gc_min_interval_ms = 500
net.ipv4.route.gc_thresh = …
Run Code Online (Sandbox Code Playgroud)在名称服务器上捕获:
21:54:35.391126 IP resolver.7538 > server.domain: 57385% [1au] A? www.domain.de. (42)
Run Code Online (Sandbox Code Playgroud)
57385% 中的百分号是什么意思?据我所知 57385 是客户端序列号,加号表示设置了 RD 位。
第二个问题:ARCOUNT 在查询中做了什么?据我了解 tcpdump 手册页 [1au] 意味着 tcpdump 将此视为协议异常 - 就像我一样。我在很多查询中都看到了这一点。
我有几个运行 Debian 8、dovecot 和 btrfs 的机器。我正在使用 btrfs 快照进行短期备份。为此,我保留了邮件子卷的 14 个快照。
在删除快照之前,性能还可以:一旦 btrfs-cleaner 启动,一切几乎都停止了。这会导致 drbd 由于超时而失去与辅助节点的连接。这发生在几个盒子上,所以它不太可能是硬件相关的问题。
我不敢相信这是正常的行为。所以我的问题是:有没有人遇到过这个问题,有没有关于如何解决或调试它的想法,或者作为最后的手段如何通过做不同的事情来避免它?
系统是 Dell R710, Debian 8, Kernel 3.16, Mount options: rw,noatime,nossd,space_cache
编辑:更多系统信息
双 R710、24GB RAM、H700 w/writecache、8x1TB 7.2k Sata 磁盘作为 RAID6、DRBD 协议 B、用于 DRBD 的专用 1Gb/s 链接
编辑:通过 rm -rf 删除快照内容。为 IO 节流,否则它会像 btrfs-cleaner 那样跑掉:
我会得出结论,这在 io 方面更糟糕。唯一的好处是我可以控制用户空间rm的IO负载。
另一个编辑:Iops massacree
linux ×2
arp ×1
btrfs ×1
firewall ×1
ipv6 ×1
networking ×1
performance ×1
snapshot ×1
tcpdump ×1