iplaybit
  • 首页
  • 系统运维
  • IT新闻
  • 科技新闻
  • 关于我们
  1. 首页
  2. 系统运维
  3. 正文

博科光纤交换机故障排除

2020年01月01日 4355点热度 39人点赞 0条评论
Brocade Switches –如何确定是SFP 或是光纤线导致“Loss of Link(丢失链接)”问题
 
问题描述: 一个有问题的SFP或光纤线会造成丢失与主机,存储或另一台交换机的连接问题,在交换机的error log中可能有如下显示:
 
2007/12/06-23:50:56, [FW-1424], 7682,, WARNING, SWITCH_1, Switch status changed from HEALTHY to MARGINAL 2007/12/06-23:50:56, [FW-1436], 7683,, WARNING, SWITCH_1, Switch status change contributing factor Marginal ports: 1 marginal ports. (Port(s) x )
 
 
问题解决方法: 首先确定是由于SFP还是光纤线的问题造成链接丢失,执行下面的命令: 检查porterrshow命令的输出:
 
如果仅是"enc out "单独报错主要是因为光纤线的问题。
 
如果是"enc out "和"crc err "组合报错主要是GBIC/SFP的问题。
 
要确定是源端还是目标端SFP报错,需要再检查"portshow x" 的输出(x代表有问题端口号) 如果下面两对参数 "Lr_in " 和 "Ols_out " 以及 "Lr_out " 和"Ols_in " 的值相同,则表明SFP运行正常如果一个数值明显高于另一个, 连接问题可能出现在交换机连接的对端("in" > "out") 或是交换机本身("out" > "in").
 
注意:如果”Ols_in”的值高于“Lr_out”的值,问题的根源大多数情况与连接的设备相关,(sending those offline sequences) 并且交换机通过"link reset"对此做出响应。
 
参数解释:
 
enc_out -> Encoding error outside of frames
 
crc err -> Frames with CRC errors
 
Lr_in -> Link reset In (primitive sequence), does not apply to FL_Port
 
Lr_out -> Link reset Out (primitive sequence), does not apply to FL_Port
 
Ols_in -> Offline reset in (primitive sequence), does not apply to FL_Port
 
Ols_out -> offline reset out (primitive sequence), does not apply to FL_Port
 
 
清除crc err等信息
 
有两个命令可以实现,一个命令是statsclear,清掉所有端口的计数值,实践中发现有些平台下不能使用,估计跟firmware或设备类型有关,另一个命令是portstatsclear,后面需要加端口号,缺点是只能清除单个端口的计数值,这个命令在所有firmware及所有类型设备都可以用 。
 
 
Porterrshow
 
用来展示交换机上面所有端口错误统计信息,详细解释如下:
 
Frame(tx/rx):tx代表端口发送的数据帧,rx代表端口收到的数据帧。
 
Enc_in: 8b/10b或者64b/6bb数据帧帧内编码错误。在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个错误。
 
Crc_err:数据帧CRC校验错误。根据实际统计,如果crc_err和enc_out同时出现,通常代表GBIC/SFP有硬件问题。
 
Crc_g_eof:数据帧CRC校验错误,但是数据帧EOF是正常的。
 
Too_long:数据帧总长度超过2148字节或者workload长度超过2112字节。
 
Too_short:小于36个字节长度的帧(workload字节长度等于0)。
 
Bad_eof:数据帧EOF错误。
 
Enc_out:8b/10b或者64b/66b数据帧帧外编码错误。在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个报错,另外在HBA卡和交换机端口速率不同,而又使用的是静态配置端口速率的时候也会产生这个错误。单一的这个报错反映光纤线可能有问题;如果是Enc_out和crc_err同时报错代表GBIC/SFP有硬件问题。
 
Disc c3:Class 3被交换机丢弃的数据帧。常见情形帧的目标地址不可达或者源端口还没有FLOGI交换机。这个参数仅仅代表有丢包发生,不能用来判定问题的具体原因。
 
Link-fail:当交换机端口在LR Receive State时间超过R_A_TOV就会产生这个错误。这个错误经常和loss of signal或者loss of sync同时出现。
 
Loss sync:bit或者transmission-word synchronization失败都会产生这个错误。当交换机端口(offline/online)会产生这个问题。
 
Loss sig:链路收不到信号。当交换机端口(offline/online)会产生这个问题。
 
Frjt:用于class 2。代表数据帧无法处理。
 
Frbsy:用于class 2。数据帧无法在E_D_TOV时间内传输出去,超时后会产生这个问题。
 
 
小结
 
1.Loss sync,Loss sig,Link-fail这三个错误在链路初始化的过程中都会产生。当链路不稳定时候,通常这些错误计数器比较高。
 
2.Frjt,Frbsy用于class 2。SAN存储通常使用的是class 3,所以这两个错误很少见。
 
3.Enc_out和Crc_err两个计数器同时比较高,通常需要更换GBIC/SFP。
 
4.Disk c3只能代表链路有丢包现象。原因可能有很多种,具体问题具体分析。如果这个值过高,链路性能可能会受到影响。
 
 
标签: san 交换机 博科
最后更新:2020年01月01日

iplaybit

点赞
< 上一篇
下一篇 >

文章评论

取消回复
最新 热点 随机
最新 热点 随机
Steam内存测试工具 SPDK详解 Hadoop之HDFS优缺点、设计原理、框架 tmpfs总结 当64核遇上PCIe 4.0 超级算力是这样建成的 Edge for Linux开发者预览将至 WSL子系统可运行带GUI的Linux应用程序
Linux统计某文件夹下文件、文件夹的个数 Linux 高级路由 ip rule / ip rout Linux基金会宣布成立TARS子基金会:致力于构建微服务开源生态 为什么Flashback Log产生量要远少于Redo Log linux 系统中查看内存插槽数、最大容量和频率 绝对零度附近,离子和原子混合物首次“现形”
一起来了解为双屏设备而生的Windows 10X系统
标签聚合
操作系统 oracle san windows redo AMD linux hp 数据库 intel docker 存储 cpu netapp 3par 文件系统

COPYRIGHT © 2020 iplaybit. ALL RIGHTS RESERVED.

京ICP备18020432号-1