不稳定的 10Gb 铜缆链路、Broadcom 和 Intel 卡到 Cisco 4900M 交换机

Tit*_*Bar 6 10gbethernet qlogic vmware-esxi broadcom

我们购买了一些带有 QLogic/Broadcom BCM57810 PCI Express 卡的 Dell PowerEdge R730 服务器,并将它们连接到 Cisco 4900M 交换机 - 10Gb 链接不能可靠地工作。它们有时无法连接,有时几分钟后连接,当它们连接时,它们一天掉线几次。断开连接可持续 4 分钟或 2 小时。

Cisco 交换机拥有与 Dell PowerVault SAN 的现有 10Gb 铜缆链路,这些链路已稳定运行数月。

我在 VMware 日志中看到断开连接的消息如下:

bnx2x 0000:82:00.1: vmnic5: NIC Link is Down
Run Code Online (Sandbox Code Playgroud)

 network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.
Run Code Online (Sandbox Code Playgroud)

我看不到任何有用的错误代码或之前的消息,只能看到由链接丢失引起的消息。在 Windows 上,它显示为断开连接的卡,在交换机上显示为断开连接的交换机端口。

当链接连接时,它们工作 - 巨型帧 ping ping、iSCSI 会话建立、数据存储出现以及找到的所有路径。但是连接是断断续续的。

我们已经检查过:

  • 电缆:
    • 原来是Cat5e单线,现在Cat6结构化布线。电缆总长度<7m。
    • 使用新电缆连接,主机到交换机,没有补丁/接头,附近也没有其他电缆。
  • 驱动程序/操作系统:
    • 最初是 VMware ESXi 5.5 U2 Dell build(“ESXi 5.5.0, 2068190”),带有 bnx2x 驱动程序版本 2.710.39.v55.2
    • 然后从 vmware.com 更新驱动程序,bnx2x 版本 2.710.70.v50.7
    • 然后是 ESXi 6.0、Dell 版本(“ESXi 6.0.0 2494585”),其中 bnx2x 版本为 2.712 ...
    • 然后是带有来自戴尔站点的最新驱动程序的 Windows Server 2012 R2。
  • QLogic/Broadcom 网卡固件;这是戴尔的最新版本,FFv7.12.17。
  • 交换机端口的配置,它是简单的mtu 9000switchport access vlan NNN
  • 交换机端口
    • 这些是 8 端口 10Gb RJ45 模块 (WS-X4908-10G-RJ45),每个交换机一个。SAN 占用每个模块中的前四个端口,新服务器占用每个模块中剩余的四个端口。这似乎会影响我们用于新服务器的所有端口。所以它不是一个失败的端口,或一个失败的模块。
    • 我没有尝试中断 SAN 连接来测试这些端口,也没有特定的理由认为端口 1-4 比作为最后手段的 5-8 更可靠。
  • 交换机接口计数器,除了断开连接没有错误。
  • 禁用 Windows QLogic/Broadcom 驱动程序中的各种卸载功能,并启用 EnergyEfficientEthernet,将卡强制为 10Gb 而不是自动检测。
  • 将相同的主机连接到相同的交换机到 1Gb 端口,这似乎工作正常,它们重复连接非常快。
  • 交叉连接两台主机,它们以 10Gb 的速度快速连接并保持稳定连接数天。
  • 我们买了一张英特尔 X540-t2 卡,并尝试了它。它的行为相同。
  • 从那时起,我们购买了 Cat 6a 跳线并对其进行了测试,没有任何变化。

我们打电话给戴尔支持,他们没有发现任何问题,并建议交换机有问题,但由于交换机运行 10Gb 铜线连接到戴尔 PowerVault 存储,据我所知,我们的交换机监控日志和 SAN事件日志,这些链接不会掉线,我不愿意认为 Cisco 交换机是问题所在。

他们运行的不是最新的 IOS 15.1(1)SG2,但交换机是实时和稳定的,我不想随便更改固件“以防万一”。

这发生在多个服务器、多个网卡、多个品牌的网卡、多个驱动程序版本、多个交换机上。它不可能是单个有故障的硬件。这一切都在一个装有空调、装有电源的机架中。

这是我们第一次尝试使用 VMware 主机以 10Gb 切换连接,因此我们没有可以比较的其他配置或可以连接的硬件。

我们还能检查什么?

-- 编辑:我们希望升级交换机固件,但我刚刚找到了一个相关链接 - 这似乎是 Cisco WS-X4908-10G-RJ45 模块和 Broadcom BCM57810 卡之间的已知问题,取决于 IOS 版本- https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay有很多相关的讨论,并导致:

https://tools.cisco.com/bugsearch/bug/CSCug68370

WS-X4908-10G-RJ45 和 Broadcom 57810S 10Gb BASE-T 互操作性问题

CSCug68370

描述

症状:10Gbps BaseT 端口(在 WS-X4908-10G-RJ45 上)通过 Broadcom 57810S DP 10Gb BASE-T 连接到 Dell 820 服务器。在重新加载交换机或移除/重新安装电缆端口后,长时间(最多 1 小时)或根本不出现。条件:1) 模块 WS-X4908-10G-RJ45 2) 版本 15.0(2)SG 到 15.0(2)SG7、15.1(2)SG 到 15.1(2)SG3 解决方法:降级到 12.2(54)SG

这不是完全相同的服务器型号,也没有提到英特尔卡,但问题是非常准确的匹配。

Tit*_*Bar 2

好吧,看起来这是 Cisco bug https://tools.cisco.com/bugsearch/bug/CSCug68370,升级到“已知固定”IOS 版本之一 (15.1(2) SG4) 似乎已经修复了它。