1、常见的告警与性能事件1.1 SDH 常见的告警1、输入信号丢失(LOS)告警产生的原因:断纤;线路损耗过大,导致收光功率超出灵敏度值;对端站发送方向无系统时钟;对端站激光器损坏,线路发送失效;对端站交叉板没有时钟输出;对端站时钟板工作不正常.告警处理步骤:测试告警单板的接收光功率,如果光功率正常则检查板上接头有无松动,如果接头良好则更换告警单板;如果光功率很小或接近 0mW,检查对端至本站的光缆是否松动;如果光缆线路正常,检查对端站光发送板接头是否松动,如果接头良好则更换对端站光发送板。2、帧定位丢失告警(LOF)告警产生的原因:光损耗过大;对端站发送信号无帧结构;本端接收方向有故障。 告警处
2、理步骤: 检查告警单板接收光功率,如果光功率正常则检查告警单板是否存在问题; 如果光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏; 如果光纤及告警单板都正常,则检查对端站光发送板设法存在问题。3、上游故障告警(AIS)(1) MS-AIS(接收线路)复用段告警告警产生的原因:上游发线路 AIS 信号;上游发站发方向无时钟或无信号(内部) 。告警处理步骤: 检查对端站线路板(ASP 等)是否存在问题,可通过复位或更换单板的方法检查告警是否消失; 检查本站线路板,先更换光接收板,如未解决再更换 ASP 板。(2) AU-AIS(接收高阶通道)管理单元告警告警产生的原因:上游发 AU-A
3、IS;上游发站内部故障,在交叉与线路之间,无时钟信号,无业务信号;本站接收部分故障。告警处理步骤:检查对端站及本站业务配置是否正确,如果不正确则重新配置业务; 依次更换对端站对应的交叉板和线路板;(3) TU-AIS 支路单元告警告警产生的原因:对方支路没有配置,或支路故障;对方交叉单元故障;由于高阶告警而引起 TU-ALS,如RLOS、RLOC 等;4、发送失效(TF) 告警产生的原因:光发送模块损坏;告警处理步骤:更换故障单板。5、复用段远端接收失效(MS-RDI) 告警产生的原因:对端站发送 MS-RDI;对端站收端收到 R-LOS、R-LOF、MS-AIS 信号,或收端电路故障;本端发
4、送有故障,或发送方向光纤故障。 告警处理步骤: 检查对端站线路板是否有 R-LOS、R-LOF、MS-AIS 告警,如有则对其进行处理,处理结束后本站 MS-RDI 告警应结束;如对端站没有告警或相应告警结束后 MS-RDI 告警仍不结束,则更换故障单板。6、指针丢失(LOP)(1)AULOP:管理单元指针丢失,连续 8 帧收到无效指针或 NDF。(2)TULOP:支路单元指针丢失,连续 8 帧收到无效指针或 NDF。7再生段误码过量指示(B1-EXC) 告警产生的原因:接收信号损耗偏大;对端站光发送电路高频部分有故障;光纤不清洁或与连接器不正确;本站接收电路部分故障。 告警处理步骤: 如果同
5、时也出现 B2、B3 告警,故障往往是线路损耗过大或由光接口板的故障引起,定位方法同出现 R-LOS 的情况; 检查设备工作温度是否过高; 如无以上情况,更换故障单板8、复用段误码过量指示(B2-EXC) 告警产生的原因:接收信号损耗偏大;对端站光发送电路高频部分有故障;光纤头不清洁或与连接器不正确;本站接收电路部分故障。告警处理步骤: 如果同时也出现 B1、B3 告警,故障往往是线路损耗过大或由光接口板的故障引起,定位方法同出现 R-LOS 的情况; 如果只出现少量的 B2,故障往往是外界干扰引起,检查设备接地是否良好,设备附近有无大的干扰源; 检查设备工作温度是否过高; 如无以上情况,更换
6、故障单板。9、复用段信号劣化(B2-SD) 告警产生的原因:接收信号损耗偏大;对端站光发送电路高频部分有故障;光纤头不清洁或与连接器不正确;本站接收电路部分故障。 告警处理步骤: 如果同时也出现 B1、B3 告警,故障往往是线路损耗过大或由光接口板的故障引起,定位方法同出现 R-LOS 的情况; 如果只出现少量的 B2,故障往往是外界干扰引起,检查设备接地是否良好,设备附近有无大的干扰源; 检查设备工作温度是否过高; 如无以上情况,更换故障单板。10、B3 误码(高阶通道误码)查看 OIB 板上 HP 类型的性能事件(BBE、ES、SES)数据。告警产生的原因:接收信号衰减偏大;光纤头不清洁或
7、连接不正确;对方发送部分故障或开销处理器故障;本站接收部分故障1.2 SDH 常见的性能事件1、误码秒(ES) 、严重误码秒(SES) 、不可用秒(UAS) ES 表示传输过程中至少有一个误码的秒 SES 表示误码率 10-3 的秒 UAS 的开始是连续出现 10 个 SES UAS 的结束是连续出现 10 个非 SES2、背景误码块(BBE)BBE 表示同一块中的任意比特发生差错的块 3、指针调整统计(PJC)指针调整问题有两类:AU 指针调整和 TU 指针调整。指针调整事件有两种:PJCHIGH(指针正调整)和 PJCLOW(指针负调整) 。如果出现指针调整过于频繁,表明网络的同步存在问题
8、,可能是同步源问题,也可能是时钟跟踪问题。检查 AU 指针调整问题,见性能查看,查看线路板(OIB)上 MSA 类型的性能事件(PJCHIGH 和 PJCLOW)数据。检查 TU 指针调整问题,见性能查看,查看支路板(SP1 或 PD1)上 HPA 类型的性能事件(PJCHIGH 和 PJCLOW)数据。4、帧失步(OOF)告警产生的原因:接收信号损耗偏大;传输过程误码过大;接收方向器件有故障;对端站发送有故障。告警处理步骤:检查告警单板接收光功率,光功率正常则检查告警单板是否存在问题; 如光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏; 如光纤及告警单板都正常,则检查对端站光发送
9、板是否存在问题。2 故障现象及处理方法2.1 常见的故障现象及其原因1、业务中断外部原因 供电电源故障,如设备掉电、供电电压过低等; 交换机故障; 光纤、电缆故障。如光纤性能劣化、损耗过高,或光纤损断;中继电缆脱落、损断或接触不良等人为原因 误操作设置了光路或支路通道的环回 误操作更改、删除配置数据设备本身故障 单板失效或性能不好2、传输误码外部原因 光纤性能劣化、损耗过高 光纤接头不清洁或连接器不正确 设备接地不好 设备附近有强烈干扰源 设备散热不好、工作温度过高设备故障 线路板接收侧信号衰减过大、对端发送电路有故障、本端接收电路故障 时钟同步性能不好 交叉板、线路板或支路板故障 风扇故障
10、单板失效或性能不好3、业务丢失人为原因 业务开通后,未对数据做备份 对网管进行误操作4、公务电话故障外部原因 光纤断会导致正在通话的公务电话单通人为原因 公务配置数据错,包括“允许通话逻辑系统” 、 “呼叫等待时长” 、 “电话号码”等设备本身故障 支持公务电话的单板失效或性能不好5、大量指针调整外部原因 光纤接反,出现两个网元间时钟互锁的情况人为原因 时钟源配置错误,出现同一个网中有两个时钟源的情况 时钟源配置错误,出现两个网元间时钟互跟的情况设备本身故障 线路板故障,提取时钟质量不好 时钟板故障,提供的时钟源质量不好 交叉板故障,给各单板分配的工作时钟质量不好6、网关网元登陆不上外部原因
11、网线选择错误或者网管台的网卡坏人为原因 ID 或 IP 地址设置错误设备本身故障 SCB 板故障,无法 PING 通或者无法登陆 软件版本不匹配,主机版本较网管版本新7、非网关网元登陆不上外部原因 光纤故障,如光纤性能劣化、损耗过高,或光纤断 供电电源故障,如设备掉电、供电电压过低等人为原因 ID 设置错误 网管中网关网元删除再恢复,非网关网元的网管属性丢失设备本身故障 SCC 板故障 光板故障 网元有大量的性能数据上报到网管2.2 常见故障的处理方法1、业务中断类故障处理常用方法 告警分析法 逐段环回法 互换、替换法处理步骤 检查各站登录是否正常,各站光路上是否有紧急告警。 检查业务中断站点
12、支路板上业务通道,是否有 T-ALOS 告警。 逐段环回2、误码类故障处理常用方法 告警分析法 逐段环回法 互换、替换法处理步骤 根据告警及性能,分析是线路上还是支路上的误码? 通过逐段环回法定位误码产生的位置。 根据定位的信息做排除或替换处理3、指针调整的问题处理常用方法 性能分析法 更改配置法 互换、替换法处理步骤 排除光纤接反可能。只有在通道环的情况下,才可能发生光纤接反的情况。其它组网下,光纤接反将导致业务中断。 检查配置,排除配置错误的可能。 分析指针调整性能事件,并通过更改时钟源位置以及时钟跟踪方向等方法,定位故障点。4、ECC 的问题处理常用方法 告警性能数据分析法 替换法处理步
13、骤 排除外部因素,如掉电、光纤折断、光纤性能劣化等,将故障定位到单站或两个站之间。 对于 ECC 问题,逐段自环不能定位故障;一般根据从哪一站开始不能登录来判断故障位置。 检查 SCC 板。 检查光板。3 故障定位的基本思路3.1 故障定位的原则应遵循“先外部,后传输;先单站,后单板;先线路,后支路;先高级,后低级”的原则。(1)先外部,后传输。在定位故障时,应首先排除外部的可能因素,如断纤、交换侧故(2)先单站,后单板。在定位故障时,首先要尽可能准确地定位出是哪一个站,然后再定位出是该站的哪一块板。(3)先线路,后支路。线路板的故障常常会引起支路板的异常告警,因此在进行故障定位时,应遵循“先
14、线路,后支路”的原则。(4)先高级,后低级。即进行告警级别分析,首先处理高级别的告警,如危急告警、主要告警,这些告警已经严重影响通信,所以必须马上处理;然后再处理低级别的告警,如次要告警和一般告警。3.2 故障定位的基本方法故障定位的基本方法:“一分析,二环回,三换板”:1) 当故障发生时,首先通过对告警事件、性能事件、业务流向的分析,初步判断故障点范围;2) 通过逐段环回,排除外部故障,并最终将故障定位到单站,乃至单板;3) 通过换板,排除故障问题。在故障定位和排除中常用方法有告警性能分析法、环回法、替换法、配置数据分析法、仪表测试法、经验处理法等。1、告警性能分析法通过网管获取告警和性能信
15、息,进行故障定位。可以全面地、详实地了解全网设备的当前或历史告警信息;也可通过机柜顶部指示灯和单板告警指示灯来获取告警信息,进行故障定位。一般告警灯常有红、黄、绿三种颜色,红色表示紧急告警及重要告警,黄色表示次要告警及一般告警,绿色表示系统正常运行。2、环回法环回法,是 SDH 传输设备定位故障最常用、最行之有效的一种方法。环回有多种方式,如内环回与外环回,远端环回与本地环回,线路环回与支路环回等。进行环回操作时,首先应进行环回业务通道采样,即从多个有故障的站点中选择其中的一个站点,从所选站点的多个有问题的业务通道中选择其中的一个业务通道;然后画出所采样业务的一个方向的路径图,图中要标出该业务
16、的源和宿及所经过的站点、所占用的 VC4 通道和时隙等;最后逐段环回,定位故障站点及单板。支持软件环回的单板操作工具软件环回操作类型环回级别 应用线路板 网管、命令行内环回、外环回按VC4通道级别或整个STM-N信号环回将故障定位到单站,且可初步判断线路板是否存在故障支路板 网管、命令行内环回、外环回按通道环回 可分离交换机故障还是传输故障,且可初步判断支路板是否存在故障。交叉板 网管、命令行线路环回、支路环回按业务通道环回 可定位单站故障中,是线路侧故障还是支路侧故障。采用环回法应注意的问题: 软件环回是一种不彻底的环回,只能初步定位故障的位置。 对远端站点线路板第一个 VC4 作环回操作时
17、,一定要确认环回后 ECC 通信不会中断,才可进行操作。一旦远端站点的 ECC 通信中断,则只能到远端站点现场才能解开环回,恢复 ECC 通信。 “环回法”会导致正常业务的暂时中断,一般只有在出现业务中断等重大事故时,才使用环回 无法排除故障。3、替换法替换法就是使用一个工作正常的物体去替换一个工作不正常的物体,从而达到定位故障、排除故障的目的。这里的物件可以是一段线缆、一个设备、一块单板、一块模块或一个芯片。替换法适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等;或故障定位到单站后,用于排除单站内单板或模块的问题。4、配置数据分析法查询、分析设备当前的配置数据,例如:时隙配
18、置、复用段的节点参数、线路板和支路板通道的环回设置、支路通道保护属性等,分析以上的配置数据是否正常,来定位故障。若配置的数据有错误,需进行重新配置。5、仪表测试法仪表测试法指采用各种仪表,如误码仪、光功率计、光时域反射仪、SDH 分析仪等来检查传输故障。例如:用 2M 误码仪测试业务通断、误码;用万用表测试供电电压,检查电压过高或过低问题。6、经验处理法在一些特殊的情况下通过复位单板、单站的掉电重启、重新下发配置等手段可有效及时的排除故障、恢复业务。但建议此方法应尽量少用,因为该方法不利于故障原因的彻底清查。遇到这种情况,除非情况紧急,一般还应尽量使用上面介绍的方法,或请求支援尽可能地将故障定位出来,以消除设备内外隐患。对故障定位的基本思路和方法进行总结,可以归纳为:故障定位过程 常用方法 其它方法1.排除外部设备故障 替换法、测试法、环回法告警性能分析法2.故障定位到单站 环回法 告警性能分析法3.故障定位到单板并最终排除 替换法 告警性能分析法、环回法、更改配置法、经验处理法