1、Page 1,EPON故障处理,华为接入网产品线,Page 2,第1章 故障处理流程和方法 第2章 EPON 常见故障处理指导 第3章 EPON典型业务故障处理指导,Page 3,故障处理流程和方法,故障信息来源 故障处理流程 故障处理常用方法,Page 4,一、故障信息来源,用户或客户服务中心的故障申告。 日常维护或巡检中所发现的异常。 网管告警系统的告警输出。 对接设备维护人员的故障通告。,Page 5,二、故障处理流程,开始,收集并记录相关信息,能否判断故障范围和类别,确定故障范围和类别,是否为紧急故障,定位故障原因,屏蔽隔离故障,排除故障,故障是否被排除?,记录故障处理过程及结果,联系
2、华为公司技术支持人员,否,是,否,应急维护处理,是,Page 6,故障处理流程,1、收集并记录故障信息 在故障处理的初期收集各种相关信息,可以帮助定位故障原因,提高维护人员处理故障的效率。 2、确定故障范围和类别 在获取故障信息以后,需要对故障现象进行分析,确定故障的范围和类别。 3、定位故障原因 故障定位就是从众多可能原因中找出具体原因的过程。维护工程师使用各种方法分析、比较各种可能的故障原因,排除不可能的原因,最终确定故障发生的具体原因。,Page 7,故障处理流程,4、屏蔽/隔离故障 正确定位故障原因后,对故障进行屏蔽或隔离来恢复业务或避免故障范围扩大。 5、排除故障 排除故障是指采取适
3、当的措施清除故障、恢复设备正常运行的过程,如检修线路、更换部件、修改配置数据、复位单板等。 6、确认故障处理结果 在完成故障排除的工作后,还需要根据故障影响的范围,对受影响的相关业务进行验证测试,来确认故障现象是否消失。 7、联系华为技术支持 如果在故障处理过程中遇到难以解决的问题,需要联系华为技术支持进行处理。,Page 8,三、故障处理常用方法,告警分析 性能分析 分段处理 仪表测试 对比分析 互换分析 配置数据分析 协议分析,Page 9,第1章 故障处理流程和方法 第2章 EPON 常见故障处理指导 第3章 EPON典型业务故障处理指导,Page 10,维护说明,EPON接入系统由OL
4、T、ONU及ODN组成,所以EPON接入故障一般需要三方面协同处理,由OLT侧维护人员主导。本章节详细、全面地给出了EPON故障处理的指导思想,针对ONU侧维护人员,建议在了解全局的基础上重点掌握ONU设备的状态查看、ONU侧的光纤、光功率检查及ONU的数据配置上。,Page 11,故障处理流程,开始,初步定位故障位置,检查光纤状况,检查设备运行状态,检查ONU状态,检查设备统计信息,检查设备数据配置,检查上层设备状态,结束,检查ONU侧光纤及光功率,检查ONU设备状态,Page 12,初步定位故障位置,Page 13,检查光纤状况,主要检查: 光纤是否插好。 光纤是否弯曲严重。 光纤是否有断
5、线。 平均发送光功率是否正常。 接收光灵敏度是否正常。,Page 14,光纤衰减与光功率介绍,Page 15,检查ONU的指示灯,Page 16,在线检查ONU状态,使用display ont info命令检查ONU的信息,主要检查Control Flag、Run State、MAC、Config State,Page 17,在线查询ONT状态,使用display ont info命令检查ONU的信息,主要检查Control Flag、Run State、MAC、Config State如果“Control Flag”为激活态,且“Run state”为up,则正常,说明用户上线且认证通过。如
6、果“Control Flag”为去激活态,会禁止ONU进行注册,需要在EPON模式下使用ont activate命令把控制开关设为激活。如果“Control Flag”为激活态,而“Run State”为down,则说明用户未上线。 如果ONU的“MAC”与实际的ONU不一致,会导致注册失败。如果“Config State”为“Normal”状态,说明ONU配置恢复状态正常。如果“Config State”为“Failed”状态,说明ONU配置恢复失败,有可能是ONU绑定了错误的ONU模板。可尝试通过重新下发配置命令或重启ONU来排除故障。,Page 18,检查设备运行状态,操作步骤 1、检查
7、主控板的运行灯状态。 正常情况下:RUN ALM绿灯1s亮1s灭,周期闪烁,ACT灯常亮。 如果出现异常,请检查主控板是否接触良好。2、检查业务板的运行灯状态。 正常情况下:RUN ALM绿灯1s亮1s灭,周期闪烁。 如果出现异常,请检查业务板是否接触良好。3、检查PON接口灯状态。 正常情况下:ONT在线时,PON接口的绿灯常亮 。 如果出现PON口灯不亮,请检查光口激光器是否打开。如果被关闭,在EPON模式下,使用port laser-switch on命令打开。,Page 19,检查设备数据配置,操作步骤 1、检查ONT绑定的DBA模板。 A、使用display ont info命令检查
8、ONT所绑定的DBA模板。 B、使用display DBA-profile all命令检查DBA模板的相关信息,确认绑定的DBA模板是否满足需求。如果不满足,可以使用ont modify命令为ONT绑定合适的DBA模板。 2、检查业务流配置是否正确。 A、使用display service-port命令查询业务虚端口配置是否正确。如果不正确,请重新进行配置。 B、使用display ont port vlan命令查询ONT的端口VLAN配置是否与业务流对应。 如果是用户侧为untagged方式的业务数据,应该使用ont port vlan命令将ONT端口要加入到业务VLAN,使用ont por
9、t native-vlan命令配置端口的Native VLAN与上行VLAN相同。 如果是用户侧VLAN为tagged 方式的业务流,应该使用ont port vlan命令将ONT端口加入到用户侧VLAN中。 3、检查VLAN中是否加入了上行口。 使用display vlan命令检查是否为业务VLAN增加了上行口。如果没有增加请使用port vlan命令为该VLAN增加上行口。,Page 20,检查设备统计信息,如果发现哪个阶段的数据只有收或只有发,则可以定位数据在该阶段丢失,再查看相关阶段的配置。 步骤一:查询上行口的流量统计信息,查看是否有收、发的流量 使用huawei(config-if
10、-giu-0/1)#display port statistics 0命令查询。步骤二:查询EPON 端口的性能统计信息 使用huawei(config-if-epon-0/3)#display port statistic 0命令查询。步骤三:查询ONT 的性能统计信息 使用huawei(config-if-epon-0/3)#display ont statistic 0 0命令查询。,Page 21,检查上层设备状态,在EPON业务发生故障时,通过检查上层设备状态排除故障。如果MA5680T及所接终端都正常,则问题可能出在上层设备,请检查上层设备的运行状态、数据配置。特别要关注上层设备和
11、MA5680T对接接口的状态和属性的兼容性。,Page 22,常见故障分类及原因,Page 23,典型案例- ONU由于MAC冲突不能正常注册,故障现象 发现某个PON口下面只有一个ONU不能正常注册。 故障分析 1、按照ONU不能正常注册的步骤处理 操作步骤 1、检查ONU光口正常; 2、检查光衰是否合适,使用光功率计检查ONU 光功率正常; 3、检查ONU 的配置正确;4、查看OLT上已经存在离线添加相同MAC 的ONU,删除离线添加的ONU后业务正常。 总结 实际加电的ONU要与离线添加的ONU位置一致。,Page 24,典型案例-ONT长发光导致系统瘫痪,故障现象 发现某个PON口下面
12、只有一个ONT在线。 故障分析 1、从局端看,某个PON口下只有一个ONT终端。 2、断开该终端ONT(要断开线路或切断该终端ONT电源),如果此时该PON口下其他用户都能正常工作,一般可以断定是该终端ONT长发光或者该线路有一个长发光的1310nm的光源(属于恶意入侵系统)。 操作步骤 1、更换为正常的ONT或切断该终端线路。 2、验证发现其他ONT在线,问题解决。 总结 如果某个ONT的光模块故障,处于常发光状态,则会占用全部上行时隙,导致和此ONT位于同一PON口下的其他ONT全部瘫痪。这类现象只有在ONT光模块出现异常或者个别用户恶意入侵系统才会发生。,Page 25,典型案例-光衰减
13、过大导致ONT无法自动发现,故障现象 ONT各指示灯正常,打开OLT端口的自动发现功能,OLT无法自动发现ONT。 故障分析 1、OLT已打开ONT自动发现功能; 2、ONT故障; 3、光路问题。 操作步骤 1、ONT各指示灯正常,排除光路不通的可能性。 2、用光功率逐段检测各个连接点的光功率,发现从机房配线架到分光器的一段光纤的光衰达到了-13db。这导致通过分光器后的光衰达到-30db,低于ONT的最低激活光衰(-27db),从而导致ONT无法自动发现。更换光纤后故障解决。 总结 网络情况及光路质量往往是处理问题时容易忽略的地方。,Page 26,第1章 故障处理流程和方法 第2章 EPO
14、N 常见故障处理指导 第3章 EPON典型业务故障处理指导,Page 27,EPON语音业务故障处理流程,语音业务故障处理分为以下两种情况:话机无馈电故障处理。 话机有馈电故障处理。,Page 28,话机无馈电故障流程,Page 29,话机有馈电故障处理流程,开始,在OLT上是否能学到语音VLAN的网络侧MAC,在ONU上PING软交换IP,查看MG接口状态,检查语音VLAN是否在上行口透传及上端设备数据配置,否,检查设备间路由或ACL配置,是,是,否,信令跟踪分析,是,Page 30,话机有馈电故障处理流程,1、查看VOIP业务的VLAN是否在OLT及ONU上正常透传,通过查看MAC地址命令
15、查看故障用户是否能够学到网络侧的MAC,如果能学到MAC地址,转步骤3;如果不能学到网络侧的MAC,转下一步2、检查上行交换机及BAC等设备的数据配置是否正确,定位故障点为上行设备问题;3、在ONU(MG)上是否能PING通软交换地址(MGC),如果能PING通,转步骤5;否则转下一步;4、检查OLT设备到的近端SR到远端SR及软件换之间的路由是否正常,定位故障点为链路路由问题;5、查看MG接口状态是否正常,MG接口参数配置是否正确无误,设备IP地址、端口号、协议类型是否与对端设备的配置匹配,定位故障点所在;否则采用信令跟踪工具进行信令跟踪。,Page 31,典型案例 -电话打不通但能上网,故
16、障现象 开通EPON接入业务,个别用户反映电话打不通,但是能上网。 故障分析 因为上网业务已经可用,说明局端OLT设备、终端ONT设备的状态正常。故障的原因可能是ONT及以下设备的问题。 操作步骤 检查MA5680T的上行端口配置,已经存在于专用的语音VLAN中。 检查ONT的业务虚端口配置,已经加入到语音VLAN中。 检查IAD所连接的ONT端口的VLAN配置,该端口也已经加入到语音业务的用户VLAN中。 检查IAD所连接的ONT端口的默认VLAN,把IAD端口的默认VLAN设为语音业务的用户VLAN。 其他配置不变,进行业务验证,问题解决。 总结 需要注意在网络规划中untagged上行的
17、数据。需要关心上行端口的默认VLAN是否与该端口所在的VLAN一致。,Page 32,典型案例 ONU下用户有攻击造成宽带语音业务闪断,故障现象 ONU设备下两个FE口分别接宽带与语音业务,不同的时间段会出现宽带与语音业务闪断的现象 ,闪断时间一般为几十秒。 故障分析 由于故障发生时间很短,此类问题很难定位,需要对组网及业务流程了解透彻。经确认组网如图所示,宽带与语音业务的网关都终结在BAS上,BAS为单MAC设备。对于闪断类问题是不好定位故障的,一般需要捕捉故障时的报文来定位故障出在哪里。 操作步骤 1、通过以上分析,建议通过故障时抓包的手段来定位。在LSW的下行口作镜像抓包,故障时抓包发现
18、,拨号用户的PADI报文可以正常送到LSW上,但是PADR报文不能送到LSW上去。接下来据此分析原因,比较PADI和PADR的区别,PADI是广播报文,PADR是单播报文,广播报文可以正常转发,但是单播报文被丢弃,这种情况怀疑应该是由于下层网络发生了MAC地址漂移。网关的MAC地址在下层设备发生了漂移,此时广播报文可以正常转发,但是目的MAC是网关的单播报文会被全部丢弃。,Page 33,2、那么产生MAC漂移一般为用户端环路或者是攻击导致,如何确认是否就是这个原因引起的呢,因为故障发生时间很短,如果故障发生时再处理,肯定来不及。决制定抓包方案,在ONU上把接DSLAM的FE口镜像到另一FE口
19、,之后在PC上设置通过源MAC(BAS的MAC)来抓包。 3、搭建抓包环境后抓到了故障时的数据包,为某一端口发送源MAC为BAS的MAC的ARP攻击报文,造成业务中断 。 总结 1、组网不规范。网络层次多出一层,建议采用集成语音业务的MDU设备来替换此种组网; 2、在DSLAM设备上开启MAC过滤及环路检测功能 。,典型案例 ONU下用户有攻击造成宽带语音业务闪断,Page 34,IPTV的业务流程,EPON设备组播业务故障处理流程,Page 35,EPON设备组播业务故障处理流程,组播业务故障一般分以下三类: 用户不能上线。 用户在线但看不到画面。 用户能看到画面,但画面质量不好。,Page
20、 36,用户不能上线,操作步骤 1、观察IGMP报文。 2、检查终端状态。 3、检查IGMP模式。 4、检查组播用户配置。 5、检查用户预览时间和次数。 6、检查节目配置。 7、检查带宽。,Page 37,用户不能上线,1、观察IGMP报文。全局模式下,使用terminal debugging命令打开终端显示调试信息功能,使用terminal monitor命令打开终端显示信息中心发送的调试/日志/告警信息功能。 全局配置模式下,使用debugging igmp all命令打开IGMP Debug开关,观察IGMP报文。 如果有报文上报,在用户不能上线的时候,命令行界面将显示出上线失败原因,请
21、根据界面提示信息进行相应的处理。 如果没有报文上报,说明MA5680T与用户之间通信故障,请根据具体的接入方式排除链路故障,至少保证用户上网业务正常。如果仍然收不到报文,需要检查终端和MA5680T的组播业务配置数据。,Page 38,用户不能上线,2、检查终端状态。 检查PC或STB状态。 检查用户使用的业务终端,PC或STB是否工作正常,保证能够正常收发IGMP报文。 检查接入终端状态。 根据不同的接入方式,检查接入终端是否工作正常。,Page 39,用户不能上线,3、检查IGMP模式。在组播VLAN模式下,使用display igmp config vlan 命令检查IGMP模式是否正确
22、。如果IGMP模式是“OFF”,则用户肯定不能上线,请根据具体情况将IGMP模式修改为“Proxy”或者“Snooping”。,Page 40,用户不能上线,4、检查组播用户配置。 使用display igmp user命令检查组播用户是否需要认证。如果用户需要认证,使用display igmp user命令检查该用户绑定的权限模板,并使用display igmp profile命令检查模板内容,确认用户是否有观看界面的权限。 使用display igmp policy命令检查IGMP报文处理策略,如果处理策略不是“normal”,使用igmp policy命令配置IGMP报文处理策略为“no
23、rmal”。 使用display igmp multicast-vlan member命令检查用户端口所加入的组播VLAN,如果用户端口不在所点播节目的VLAN中,使用igmp multicast-vlan member命令将用户端口加入到组播VLAN。,Page 41,用户不能上线,5、检查用户预览时间和次数。 使用display igmp preview user命令检查用户预览时间和次数。 如果用户通过认证且对节目只有预览权限,则点播节目时受预览参数的限制,具体如下: 预览间隔时间内不能点播节目。 超过预览次数后不能点播节目。,Page 42,用户不能上线,6、检查节目配置。检查节目是否
24、已正确配置: 使用display igmp program命令检查应该配置的节目是否已经配置和VLAN ID是否正确。 使用display igmp program vlanvlanidipip-addr命令检查指定节目的详细信息。,Page 43,用户不能上线,7、检查带宽。 在带宽管理开关开启的情况下,需要检查上行口的带宽和用户侧带宽: 如果上行口和业务端口的可用带宽小于节目带宽,则无法承载节目,这将导致用户不能上线。 如果对上行口和业务端口进行了限速,也会导致用户不能上线。,Page 44,用户在线但节目没有画面,操作步骤 1、检查上行端口。 2、检查节目信息。 3、检查视频服务器。 4
25、、检查组播路由器。,Page 45,用户在线但节目没有画面,1、检查上行端口。 检查上行端口状态。 检查上行端口状态是否正常,指示灯是否亮。 如果指示灯不亮请检查光模块和光纤的配合使用情况。一般情况下要求单模光模块与单模光纤配合使用,多模光模块和多模光纤配合使用且两端光模块要一致。 检查上行端口数据配置。 使用display igmp uplink-port命令检查上行端口数据配置是否正确,主要检查上行端口是否配置完全。 使用display igmp config global命令检查组播上行端口模式是否与上行组网一致。,Page 46,用户在线但节目没有画面,2、检查节目信息。 使用disp
26、lay igmp program vlanvlanidipip-addr命令检查指定节目的详细信息。主要检查VLAN ID、Hostip等信息。 如果上层路由器不接收带VLAN Tag的报文,则上行端口的Native VLAN需要设置和节目VLAN一致。 如果上层路由器检查源IP: Hostip应与路由器接口IP地址必须在同一网段。 如果组播VLAN配置了三层接口,则三层接口IP地址与路由器接口IP地址必须在同一网段。,Page 47,用户在线但节目没有画面,3、检查视频服务器。 检查视频服务器是否正确发送视频流,保证视频服务器工作正常。 检查节目的TTL值是否够用,要求TTL值大于从视频服务
27、器到用户的跳数。 4、检查组播路由器。检查组播路由器的数据配置。,Page 48,节目有画面但画面质量不好,操作步骤 1、检查节目流量统计信息。 2、检查节目绑定带宽。 3、检查终端的速率和带宽。 4、检查组播用户分配带宽。,Page 49,节目有画面但画面质量不好,1、检查节目流量统计信息。 使用display multicast flow-statistic index命令查询组播节目的流量统计。 如果查得的组播节目流量与节目的实际流量相差不大,则说明该节目流已经正常到达MA5680T上行端口。 如果查得的组播节目流量与节目的实际流量相差很大,则可以直接将组播源接到MA5680T上行端口,
28、从用户侧进行节目点播: 如果点播正常,说明问题出现在上层设备。 如果点播不正常,说明问题出现在组播源或者MA5680T设备本身。,Page 50,节目有画面但画面质量不好,2、检查节目绑定带宽。 使用display igmp program命令查看节目绑定的带宽。 正常情况下,节目绑定带宽要大于节目带宽实际值。如果节目绑定带宽小于节目带宽,请在MVLAN模式下,使用igmp program modify命令增加节目绑定带宽。,Page 51,节目有画面但画面质量不好,3、检查终端的速率和带宽。 检查ONT的带宽参数。 对于EPON接入用户,使用display ont info命令查询ONT的C
29、IR参数。如果CIR设置太小,会影响画面质量,需要更改或者取消ONT的CIR设置。,Page 52,节目有画面但画面质量不好,4、检查组播用户分配带宽。 使用display igmp user port命令查看端口分配给组播用户的带宽(即查询结果中的“user maxbandwidth”参数项)和组播用户实际占用端口的带宽(即查询结果中的“Used bandwidth”参数项)。 如果两次查询到的数值相差不大,则可能是给组播用户分配的端口带宽太小。解决方法:使用igmp user modify命令修改组播用户分配的带宽。修改后的用户分配带宽在用户下次上线时生效。,Page 53,典型案例 节目
30、绑定的带宽较小导致用户无法上线,故障现象 用户点播节目时,无法上线。 故障分析 用户点播节目无法上线,可能原因较多,一般有以下几种可能: 1、终端STB问题;2、用户端到ONU,ONU到OLT物理链路问题;3、OLT/ONU数据配置问题;4、其它。 操作步骤 1、在全局配置模式下,使用debugging igmp all命令打开IGMP Debug开关,观察IGMP报文。有用户端的igmp report报文上报,则可以排除STB及物理链路的问题。 2、查看MA5680T的ARP信息,发现ARP对应的VLAN为组播VLAN100,没有问题; 4、查看MA5680T组播用户配置有权限观看节目; 3
31、、查看MA5680T配置的节目信息,节目绑定的VLAN为100; 5、查看MA5680T使能带宽管理功能 。则查看节目信息节目带宽配置为3Kbit/s ,更改为3072Kbit/s后业务正常。 总结 如果不使能组播的带宽管理功能,则系统不对组播节目的带宽做任何保证。当带宽得不到保证时,画面会出现马赛克、延迟等现象,影响用户观看效果。使能组播的带宽管理功能后,对于无带宽保证的节目,系统将不允许其点播。,Page 54,典型案例 - ONU下的组播业务在同时进行下载的时候,出现严重的停顿问题,故障现象 在ONU的一个FE口下,通过一个家庭网关同时接入IPTV和PPPOE上网业务的时候,如果PC进行下载,则IPTV会出现明显的停顿。 故障分析 IPTV用户只有在同时下载时出现停顿问题,怀疑与用户带宽或者优先级设置有关。 操作步骤 查看ONU下的配置IPTV业务的优先级配置正确,查看FE端口不存在限速;仔细查看ONU的FE口与下接设备的以太端口协商模式不匹配一个是自协商,一个是固定100M全双工,结果ONU协商成100M半双工。 总结 网络两侧设备工作模式不一致会导致数据收发错误。故障处理到最后往往比想象中可能要简单。,Page 55,Thank You,,