1、5.6 环路故障处理介绍了环路常见故障的定位思路和案例。5.6.1 环路导致设备产生广播风暴的定位思路介绍环路导致设备产生广播风暴的故障处理流程和详细的故障处理步骤。常见原因网络出现环路后会导致广播风暴,同时可能会有如下现象产生:l 设备无法远程登录。l 在设备上使用display interface 命令查看接口统计信息时发现接口收到大量广播报文。l 使用串口登录设备进行操作时,操作比较慢。l CPU 占用率超过70%。l 通过ping 命令进行网络测试时丢包严重。l 设备上发生环路的VLAN 的接口指示灯频繁闪烁。l PC 机上通过抓包软件获得大量的广播报文。l 设备部署环路检测后,设备出
2、现环路告警。本类故障的常见原因主要包括:l 设备线缆连接错误导致环路。错误连接线缆导致环路典型场景如图5-9、图5-10 所示。其中: 图5-9 中用户将 SwitchB 中相同VLAN 的两个接口用线缆连接起来导致设备产生环路。对于图5-9 组网的场景,可以采用如下方式检测环路: 在SwitchA 上部署Loopback Detection,并且Loopback Detection 的处理动作配置为发现环路后产生告警,根据告警信息确认环路产生的设备、接口和VLAN,如果告警信息中发生环路的接口为连接SwitchB 的接口,证明环路发生在SwitchB 上,如果未产生告警证明环路发生在Swit
3、chA 上。确认发生广播风暴的设备之后,再根据接口广播风暴的统计信息或者接口指示灯的状态判断环路可能产生的接口,在环路可能产生的接口上执行shutdown 命令或拔出线缆,如果广播风暴消失证明该接口产生环路。 在SwitchA 连接SwitchB 的接口执行shutdown 命令或拔出线缆,此时广播风暴仍然存在证明环路发生在SwitchA,如果广播风暴消失证明环路发生在SwitchB。确认发生广播风暴的设备之后,再根据接口广播风暴的统计信息或者接口指示灯的状态判断环路可能产生的接口,在环路可能产生的接口上执行shutdown 命令或拔出线缆,如果广播风暴消失证明该接口产生环路。 图5-10 中
4、用户错误的将SwitchE 和SwitchF 连接起来,由于SwitchD、SwitchE、SwitchF 之间互联的接口属于同一个VLAN ,SwitchE 和SwitchF 连接后网络便产生环路。对于图5-10 组网的场景,可以采用如下方式判断环路产生的设备: 在SwitchC 上配置Loopback Detection,并且Loopback Detection 的处理动作配置为发现环路后产生告警,根据告警信息的中的接口判断环路产生的设S2700 系列以太网交换机故障处理5 局域网类文档版本 02 (2012-10-27) 华为专有和保密信息版权所有 华为技术有限公司112备,如果告警信息
5、中发生环路的接口为连接SwitchD 的接口,证明环路可能发生在SwitchD、SwitchE、SwitchF 上。如果没有告警,证明环路发生在SwitchC。确认发生广播风暴的设备之后,再根据接口广播风暴的统计信息或者接口指示灯的状态判断环路可能产生的接口,在环路可能产生的接口上执行shutdown 命令或拔出线缆,如果广播风暴消失证明该接口产生环路。图5-9 错误线缆连接导致环路典型场景SwitchBSwitchA图5-10 错误线缆连接导致环路典型场景SwitchCVLAN 1SwitchDSwitchE SwitchFl 网络未规划环路,由于用户的错误配置导致环路。错误配置导致环路典型
6、场景如图5-11 所示。其中SwitchA 和SwitchB 互联接口、SwitchA 和SwitchC 互联接口都允许VLAN X 通过,按照规划SwitchB 和SwitchC之间互联的接口不允许VLAN X 通过,但实际用户配置时 SwitchB 和SwitchC 之间接口错误配置允许VLAN X 通过从而导致网络出现环路。对于图5-11 组网的场景,可以在采用如下方式进行环路检测: 根据接口广播风暴的统计信息或者接口指示灯的状态判断环路可能产生的接口,在环路可能产生的接口上执行shutdown 命令或拔出线缆,如果广播风暴消失证明该接口产生环路,确认了存在环路的接口后,检查接口配置的允
7、许通过的VLAN 配置是否正确。S2700 系列以太网交换机故障处理5 局域网类文档版本 02 (2012-10-27) 华为专有和保密信息版权所有 华为技术有限公司113图5-11 错误配置导致环路典型场景SwitchASwitchB SwitchC设备线缆连接错误导致环路故障处理步骤说明请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。操作步骤步骤1 确认存在广播风暴的接口。可以采用如下方式确认存在广播风暴的接口。l 通过观察接口指示灯状态,如果接口指示灯频繁闪烁,可以判断该接口可能存在广播风暴。l 在设备上执行display interface brief 命令查看接口接
8、收方向和发送方向最近一段时间的带宽利用率。显示信息中“InUti”字段表示入方向上的带宽利用率, “OutUti”字段表示出方向上的带宽利用率。接口接收方向和发送方向最近一段时间的带宽利用率接近100%的接口可能是存在广播风暴的接口。步骤2 判断环路产生的设备。说明在使用通过在接口上执行shutdown 命令或拔出线缆方式关闭当前接口来判断本设备是否存在环路时,因为此操作会导致通过该接口的业务中断,在执行此操作前,请先和管理员确认。环路排除后请及时执行undo shutdown 命令开启当前接口。l 如果存在广播风暴的接口没有下连其他Switch,此时可以判断环路发生在该 Switch上,请执
9、行步骤3。l 如果存在广播风暴的接口下连其他Switch,此时环路可能发生在该 Switch 上也可能发生在下连Switch 上,此时可以选择如下方式进行环路检测: 采用环路检测协议进行环路检测:说明在部署环路检测协议之前,可以通过如下方式获取可能发生环路的VLAN 信息:l 查找广播风暴所在的接口所属VLAN。l 用户反馈的故障主机所在的VLAN。 在Switch 上针对指定VLAN 部署Loopback Detection 协议,检测存在环路的接口,并且Loopback Detection 的处理动作配置为发现环路后产生告警。S2700 系列以太网交换机故障处理5 局域网类文档版本 02
10、(2012-10-27) 华为专有和保密信息版权所有 华为技术有限公司114Loopback Detection 的配置方法请参见S2700 系列以太网交换机 配置指南-以太网中“Loopback Detection 配置”。如果Switch 产生LDT1.3.6.1.4.1.2011.5.25.174.3.3 hwLdtPortLoopDetect 告警,请根据告警中提示的接口信息确认产生环路的接口。如果产生环路的接口是下连其他Switch 的接口,证明环路发生在下连Switch。如果未产生告警,证明环路产生在本Switch。执行完上述操作后如果本Switch 还下连其他Switch,并且发
11、生环路的设备为下连Switch,请重复执行上述操作。确认发生环路的设备后请执行步骤 3。 如果存在多个接口下连其他Switch,并且该接口产生广播风暴,说明环路可能发生在设备与设备之间,请执行步骤3。 在下连接口上执行shutdown 命令,观察本设备和整个网络是否存在广播风暴。 执行上述操作后如果本设备存在广播风暴,下连Switch 不存在广播风暴,证明环路发生在本Switch,请执行步骤3。 执行上述操作后如果存在广播风暴的接口没有下连其他Switch,此时可以判断环路发生在该Switch 上。请执行步骤3。 执行上述操作后如果本Switch 和整个网络中广播风暴消失,证明环路发生在设备和
12、设备之间,请执行步骤3。如果下连其他Switch,并且下游设备仍存在广播风暴,请继续在下连 Switch 上重复执行上述操作。步骤3 判断产生环路的接口并破环。l 如果环路发生在单个设备上,说明环路是因为本设备两个属于相同VLAN 的接口直接连接导致,可以采用如下方式进行环路排除: 根据广播风暴产生的接口逐个排查该接口连接的线缆对端是不是本设备的其他接口,如果是请拔出线缆。 在产生广播风暴的接口执行shutdown 命令,如果此时广播风暴消失,并且在执行shutdown 命令时设备上另外一个接口变成Down 状态,此时证明这两个接口为产生环路的接口,此时请和管理员确认后拔出接口线缆。l 执行步
13、骤3 操作时,如果确认环路发生在设备之间,此时参考网络规划,排查和本设备相连的其他设备之间是否存在错误的连接导致网络形成环路。根据广播风暴产生的接口逐个排查该接口连接的线缆对端设备是不是和规划中的一样,查找出错误连接并拔出线缆。执行完上述步骤后故障仍然存在请执行步骤4。步骤4 请收集如下信息,并联系华为技术支持工程师。l 上述步骤的执行结果。l 设备的配置文件、日志信息、告警信息。-结束由于用户的错误配置导致环路故障处理步骤说明请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。操作步骤步骤1 确认存在广播风暴的接口。S2700 系列以太网交换机故障处理5 局域网类文档版本 02
14、 (2012-10-27) 华为专有和保密信息版权所有 华为技术有限公司115在网络中所有发生广播风暴的设备上确认产生广播风暴的接口,可以采用如下方式确认存在广播风暴的接口。l 通过观察接口指示灯状态,如果接口指示灯频繁闪烁,可以判断该接口可能存在广播风暴。l 在设备上执行display interface brief 命令查看接口接收方向和发送方向最近一段时间的带宽利用率。显示信息中“InUti”字段表示入方向上的带宽利用率, “OutUti”字段表示出方向上的带宽利用率。接口接收方向和发送方向最近一段时间的带宽利用率接近100%的接口可能是存在广播风暴的接口。步骤2 确认并修改错误配置。根据发生广播风暴的接口所属的VLAN,和网络管理员确认哪些设备之间不允许发生环路的VLAN 通过,确认完成之后在设备两端修改允许通过VLAN 的配置。执行完上述操作后如果故障依然存在请执行步骤3。步骤3 请收集如下信息,并联系华为技术支持工程师。l 上述步骤的执行结果。l 设备的配置文件、日志信息、告警信息。