光纤通道长距离问题

Mar*_*rki 52 storage fibre-channel

我需要一双新鲜的眼睛。

我们正在使用一条 15 公里的光纤线路,光纤通道和 10GbE 跨该线路复用(无源光 CWDM)。对于 FC,我们有适合长达 40 公里的长距离激光器(Skylane SFCxx0404F0D)。多路复用器受 SFP 的限制,该 SFP 最多可以执行。4Gb 光纤通道。FC 交换机是 Brocade 5000 系列。FC 的相应波长为 1550、1570、1590 和 1610nm,10GbE 的波长为 1530nm。

问题是 4GbFC 结构几乎从不干净。有时,即使流量很大,它们也会持续一段时间。然后它们可能会突然开始产生错误(RX CRC、RX 编码、RX 差异,...),即使它们只有边际流量。我附上了一些错误和交通图。当流量为 1Gb/s 时,错误目前大约为每 5 分钟 50-100 个错误。


光学

这是总结的一个端口的功率输出(使用sfpshow不同的交换机收集)

SITE-A 单位=uW(微瓦) SITE-B
**************************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko)
      接收 95.2 发送 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm(正常)
      接收 54.3 发送 1468.4      

在这一点上,我觉得奇怪的是功率水平的不对称性。SW2以1422uW发射,SW4以104uW接收,而SW2仅以54uW接收与原始功率相近的SW4信号。

SW1-3 反之亦然。

无论如何,SFP 的 RX 灵敏度低至 -18dBm(约 20uW),所以无论如何它应该没问题……但没有。

一些 SFP 已被制造商诊断为故障(上面显示的 1550nm 带有“ko”)。1610nm 的显然没问题,它们已经使用流量发生器进行了测试。租用线路也经过了不止一次的测试。一切都在公差范围内。我正在等待替代品,但出于某种原因,我认为这不会让事情变得更好,因为看起来不错的产品也不会产生零错误。

早些时候,在将信号放到线路上之前,涉及到有源设备(某种 4GFC 重定时器)。不知道为什么。由于问题,该设备已被淘汰,因此我们现在只有:

  • 开关中的长距离激光,
  • (新)10m LC-SC 单模电缆到复用器(对于每个结构),
  • 租用线路,
  • 同样的事情,但在链接的另一侧颠倒了。


FC交换机

这是来自 Brocade 的端口配置portcfgshow(显然两边都是这样)

区号:0
速度等级:4G
Fill Word(On Active) 0(Idle-Idle)
填充字(当前)0(空闲-空闲)
AL_PA 偏移 13:关闭
中继端口开启
长距离 LS
VC 链路初始化关闭
期望距离 32 公里
保留缓冲区 70
锁定 L_Port 关闭
锁定 G_Port 关闭
禁用 E_Port OFF
锁定 E_Port 关闭
ISL R_RDY 模式关闭
RSCN 抑制关闭
永久禁用关闭
LOS TOV 启用关闭
NPIV 能力开启
QoS E_Port 关闭
端口自动禁用:关闭
速率限制关闭
EX 端口关闭
镜像端口关闭
信用恢复开启
F_Port 缓冲器关闭
故障延迟:0(R_A_TOV)
NPIV PP 限制:126
CSCTL 模式:关闭

强制连接到 2GbFC 不会产生错误,但我们购买了 4GbFC 并且我们想要 4GbFC。

错误和流量图

我不知道去哪里看了。有什么想法接下来要尝试什么或如何进行?

如果我们不能让 4GbFC 可靠地工作,我想知道使用 8 或 16 的人会做什么......我不认为“这里和那里的一些错误”是可以接受的。

哦,顺便说一句,我们与制造商的每个人(FC 交换机、MUX、SFP,...)都有联系,除了要更改的 SFP(有些之前已更改)之外,没有人知道。Brocade SAN Health 说这种面料没问题。MUX,嗯,它是被动的,它只是一个棱镜,自然是最好的。

有没有在黑暗中拍摄?


附录:回答您的问题

@Chopper3:这是出现问题的第二代 Brocade。之前我们有 5000 个,现在我们有 5100 个。一开始我们还有有源MUX的时候,我们租了一个远距离激光器,直接放到交换机上,测试了一天,那一天当然是干净的。但正如我所说,有时它就像那样干净。有时并非如此。替代交换机意味着用那些只用于测试的交换机重建整个 SAN。替代 SFP,他们很难像那样获得。

@longneck:线路是租来的。它是一条暗光纤(9um 单模),所以上面没有其他光纤。当然有接头。我不能去看,但我必须相信他们已经正确完成了。正如我所说,线路已经过检查和重新检查(使用光时域反射计)。显然你自己没有所有这些设备,因为它太贵了。

@mdpc:您认为“错误”的电缆类型是什么?直到交换机一切都是单模,是的。连接器也是正确的。是的,我知道有一些绿色的,其中光纤在某个角度被切断等等。但我们有我所知道的所有正确的。


进度报告#1

我们有两个结构(= 2x2 交换机)和 Brocade 5100s 和 FabricOS 6.4.1 和两个结构(另一个 2x4 交换机)在 FabricOS 7.0.2 上。

在长距离 ISL(每个结构中一个)上,事实证明,在 FOS 6.4.1 将其设置为长距离时,会发出有关 VC Init 设置以及填充字的警告。但这些只是警告。FOS 7.0.2要求您对 VCI 和长途链接的填充词进行修改。

使用错误的 VCI 和填充字设置将 FOS 6.4.1 设置为 LS(长距离静态距离)设置使整个结构无法运行(卡在 SCN 循环中,fabriclog -s用来查看,您在其他任何地方都看不到它,没有端口错误计数器或任何增加的东西)。

目前,我正在给一种带有 IMHO 更正确设置的织物一个跳动,它似乎做得很好,而另一个没有太多流量的织物仍然到处都有错误。

进度1

简而言之:

  • 我们已经消除了 MUX(FC 重定时器)的活动部分。
  • 我们将长距离 SFP 放入终端设备本身。
  • 只是为了确保我们购买了新的单模电缆来将终端设备连接到 MUX 的其余无源部分。
  • 我们现在正在尝试几种长距离配置。

这几乎是黑魔法。发生的一切都是经验性的,似乎没有人知道做某事的确切原因是什么。(“我们已经尝试过这个,但它没有用,然后我们尝试了那个,它奏效了,所以我们坚持这样做。”但似乎没有人真正知道为什么。)

我会及时通知你的。


进度报告#2

我们为其中一种织物获得了新的激光器。即使在 4GbFC 上也非常干净。

它们的传输功率大约为 2mW (3dBm),而其他的只有 1.5mW (1.5dBm),尽管这应该足够了。

另一种织物(激光显然没问题)仍然很少产生一两个 CRC。

使用sfpshowSFP 产生实际的 RX 错误显示

状态/控制:0x82
报警标志[0,1] = 0x5, 0x40
警告标志[0,1] = 0x5, 0x40

现在我必须找出这意味着什么。不知道以前有没有。

好吧,我会先用一周的假期来理清头绪。8-)

Mar*_*rki 4

好吧,我想我需要发布一个答案。一言以蔽之就是:坚持

问题并未按照我的意愿 100% 得到解决,因为我们仍然有一种结构偶尔会出现 1(一)个 CRC 错误。另一间是干净的。但我可以忍受这一点。

无论如何,我们不会在很长一段时间内继续使用 CWDM 单元,而是明年会改用无源 DWDM 复用器,因为我们的基础设施将发生很大变化。显然,DWDM 激光器也比 CWDM 激光器便宜。哦,我们拭目以待,也许我会有很多问题要问你:-)


更新上面的不行,我们又买了CWDM,而且确实便宜了。然而,对于某些应用,AFAICS必须采用 DWDM,因为没有适用于它的 CWDM 激光器。最后,我们尝试尽可能接近制造商,与从分销商甚至集成商处购买相比,整个产品的价格仅为 1/5 左右。


所以我可以得出结论,如果您购买的解决方案无法按预期工作:坚持。在技​​术方面我们做了两件事

  • 删除 MUX 的活动部分(不能说我对此感到遗憾,但也不确定这是否最终是另一个错误来源)
  • 彻底检查 SFP

(当然,所有标准诊断,一次更改一件事,看看会发生什么等,不需要告诉您。因此,我们也检查了每条线路和电缆等,不幸的是,费用由我们承担。)

在这种情况下,我们花了很长时间坚持,但最终我们达到了制造商自己腾出一些人和一些设备来执行有帮助的检查的水平。当然,我们让集成商支付这笔费用,因为我们的硬件正在维护中。因此,这既是一项技术挑战,也是一项商业挑战。

附言。哦,我在上次更新中提到的标志并没有表明任何不好的事情,但我不记得它们的确切含义。当我找到该声明时,为了完整性,我会更新答案。


归根结底,这些旗帜毕竟意味着一些不好的事情。但显然并不确定链接的哪一侧是错误的原因。所以这对也必须改变。

哦,顺便说一句,8GbFC DWDM 收发器仅比 8G CWDM 便宜;-) 最便宜的方法是 CWDM 上的 4GbFC,然后使用 ISL 中继(如果您有许可证)