1、SDH传输设备误码问题-滁州联通传输网管中心 尧根荣【摘要】 误码问题是传输设备维护中经常碰到的问题。虽然有时小误码问题并不会对传送业务造成明显影响,如语音等业务,但当出现误码时,说明传输系统中局部已经出现性能劣化,需要尽快处理,否则有可能发展成为业务中断重大事故。下面我就结合平时维护中遇到的问题,对误码作一简单的分析,以期可以抛砖引玉,得以更好的学习。【关键字】误码 B1 B2 B3 V5 一、 误码知识1、误码分段光同步传输设备中按分段分层的思想对误码进行全面系统的检测。具体有B1再生段误码、B2 复用段误码、B3 高阶通道误码、V5 低阶通道误码。它们之间的关系可以用图1表示。图1中RS
2、T、MST、HPT、LPT 分别表示再生段终端、复用段终端、高阶通道终端和低阶通道终端。B1、B2、B3 以及V5 误码分别在这些终端间进行监测。2、误码检测机理B1 字节的工作机理是:发送端对本帧(第 N 帧)加扰后的所有字节进行BIP-8 偶校验,将结果放在下一个待扰码帧(第 N+1 帧)中的 B1 字节;接收端将当前待解扰帧(第 N-1 帧)的所有比特进行 BIP-8 校验,所得的结果与下一帧(第 N 帧)解扰后的 B1 字节的值相异或比较,若这两个值不一致则异或有 1出现,根据出现多少个 1,则可监测出第 N 帧在传输中出现了多少个误码块。收端 B1 检测出误码块,在本端的性能事件 R
3、S-BBE(再生段背景误码块)显示 B1 检测出的误块数。B2 的工作机理与 B1 类似,只不过它检测的是复用段层的误码情况。B1 字节是对整个 STM-N 帧信号进行传输误码检测的,一个 STM-N 帧中只有一个 B1 字节(为什么?稍后讲 STM-1 复用成 STM-N 时段开销的复用间插情况时你就会知道了) ,而 B2 字节是对 STM-N 帧中的每一个 STM-1 帧的传输误码情况进行监测,STM-N 帧中有 N %3 个 B2 字节,每三个 B2 对应一个 STM-1 帧。检测机理是发端B2 字节对前一个待扰的 STM-1 帧中除了 RSOH(RSOH 包括在 B1 对整个 STM-
4、N 帧LP T LP T HPT HPT MST MST R ST R ST B1 B2 B3 V5 图 1 误 码 检 测 关 系 及 检 测 位 置 的校验中了)的全部比特进行 BIP-24 计算,结果放于本帧待扰 STM-1 帧的 B2字节位置。收端对当前解扰后 STM-1 的除了 RSOH 的全部比特进行 BIP-24 校验,其结果与下一 STM-1 帧解扰后的 B2 字节相异或,根据异或后出现 1 的个数来判断该 STM-1 在 STM-N 帧中的传输过程中出现了多少个误码块。可检测出的最大误码块个数是 24 个。注:在发端写完 B2 字节后,相应的 N 个 STM-1 帧按字节间插
5、复用成 STM-N 信号(有 3N 个 B2) ,在收端先将 STM-N 信号分间插成 N %STM-1 信号,再校验这 N 组 B2 字节。收端 B2 检测出误块,在本端的性能事件 MS-BBE(复用段背景误码块)显示 B2 检测出的误块数,同时在发端的性能事件 MS-REI(复用段远端误块指示)中显示相应的误块数(MS-REI 由 M1 字节传送) 。通道 BIP-8 码 B3 字节负责监测 VC4 在 STM-N 帧中传输的误码性能,也就监测 140Mbit/s 的信号在 STM-N 帧中传输的误码性能。监测机理与 B1、B2 相类似,只不过 B3 是对 VC4 帧进行 BIP-8 校验
6、。收端 B3 监测出误码块,本端的性能监测事件HP-BBE(高阶通道背景误码块)显示相应的误块数,同时在发端相应的 VC4 通道的性能监测事件HP-REI(高阶通道远端误块指示)显示出收端收到的误块数。B1、B2 字节也与此类似,通过这种方式你可实时监测 STM-N 信号传输的误码性能。V5字节b1b2也是用来对低阶通道的误码监测,传送比特间插奇偶校验码BIP-2。其中第一个比特的设置应使上一个VC-12复帧内所有字节的全部奇数比特的奇偶校验为偶数。第二比特的设置应使全部偶数比特的奇偶校验为偶数。若收端通过BIP-2检测到误码块,在本端性能事件由LP-BBE(低阶通道背景误码块)中显示由BIP
7、-2检测出的误块数,同时由V5的b3回送给发端LP-REI(低阶通道远端误块指示),这时可在发端的性能事件LP-REI中显示相应的误块数。由此可以看出,B1、B2、B3、V5 都是在发端产生,在处理端终结。如果B2、B3、V5 在某个站点 VC4 穿通,那么这个站点就不对 B2、B3、V5 进行计算,也就是没有终结,那么它就会穿通到下个终结 B2、B3、V5 字节的站点才上报误码,使用相应的回传字节报告本端有背景误码块。由于误码出现有一定的关联性,一般来说,有高阶误码则会有低阶误码。例如,如果有B1 误码,一般就会有B2、B3 和V5 误码;反之,有低阶误码则不一定有高阶误码。如有V5 误码,
8、在不一定会有B3、B2 和B1 误码。由于高阶误码会导致低阶误码,因此我们在处理误码问题时,应按照先高阶后低阶的顺序来进行处理。3、误码上报信息光同步传输系统本端检测到误码时,除本端上报误码性能或告警事件外,本端还将误码检测情况通过开销字节通知对端。根据本端和对端上报的这些性能和告警事件,可以方便地定位是哪一段通道或哪一个方向出现误码。下表给出了与误码相关的性能和告警事件列表。表1 误码越限告警及性能事件检测位置与作用项目 性能事件 告警事件本端站检测到有对端站检测到有误码,则本本端站检测到有对端站检测到有误误码,则本端上报事件端上报事件 误码越限,则本端上报事件码,则本端上报事件再生段(B1
9、) RSBBE B1-EXC复用段(B2) MSBBE MSFEBBE MS-EXC MS-REI高阶通道(B3)HPBBE HPFEBBE HP-EXC HP-REI低阶通道(V5)LPBBE LPFEBBE LP-EXC LP-REI二、误码定位分析1, 误码的常见原因1. 外部原因1)光纤性能劣化、损耗过高。2)光纤接头不清洁或连接不正确。3)设备接地不好。4)设备附近有强烈干扰源。5)设备散热不良、工作温度过高。6)传输距离过短、未加衰减器,导致接受光功率过载。2. 设备原因1)线路板接收侧信号衰减过大、对端发送电路故障、本端接收电路故障。2)时钟同步性能不好。3)交叉板与线路板、支路
10、板配合不好。4)支路板故障。5)风扇故障,导致设备散热不良。2误码定位分析下面我们就以一个简单的单向业务组网模型来分析出现误码的几种情况。注:为了便于阐述,这里都简化为单向有误码,而反方向没有误码,并且只是某一站点出现某一类型的误码的理想情况,当然实际中要比这复杂的多。1) C 或 D 站出现再生段误码每个站点都对 B1 字节处理,所以可以考虑出现误码站点和上游站点两 RST之间(接口板、光纤通路) 。采用测量接收光功率,这也是最常用的方法,可以直接有效地可以发现线路是否正常。如果光功率过小,可以逐段测试找出故障点。如果线路没有问题,测试对端发送光功率是否合乎设备指标。如果接收光功率过大,导致
11、光模块饱和,此时要适当地加衰减。光口环回法可以进一步测试是否本端光板有问题,但要注意环回时加衰减保证光板正常接收。采用收发尾纤替换法看误码是否跟着尾纤走,这样可以快速判断线路的好坏。与环回法结合快速定位故障位置。A-TM B-ADM C-REG D-ADM E-TM 2)D 或 E 站出现复用段误码对于 D 站误码来说,由于 C 站是 REG 站点,它不对 B2 字节进行处理,所以很有可能是 B 站 MST 出来的信号带过来的,也可能是 D 站 RST 与 MST 之间有故障。此时可以采用光纤自环定位是否 D 站、B 站光接口板有问题。对于 E 站误码来说,由于 D 站是 ADM 站点,它对
12、B2 字节进行处理,所以很有可能是 D 站MST 出来的信号带过来的,也可能是 E 站 RST 与 MST 之间有故障。建议用光纤自环的方法定位是否 D、E 站相连的光接口板有问题。3)E 站出现高阶通道误码 这时要分两种情况进行讨论。如果 D 站对相业务 VC4 穿通,则说明它没有对 B3 字节做过处理,也就是说没有终结过通道开销。则问题可能出在 B 站(B 站对之做过终结) 。也可能是 E站 MST 与 HPT 之间。如果 D 站对相应业务 VC4 开销做过终结,则问题可能是 D站 HPT 与 MST 之间或 E 站 MST 与 HPT 之间。4)E 站出现低阶通道误码低阶信号复用传输过程
13、经过 PPILPALPTHPA交叉盘HPTMSAMSTRST,所经路由都可能引入误码,所以误码产生也最为复杂和广泛。如果有高阶误码,我们先处理高阶误码;如果没有高阶误码,我们可以把范围缩小到“PPILPALPTHPA交叉盘”这个部分来分析。分析的关键是要找到处理过此低阶通道的最近站点,然后可以采用软件环回的办法判断问题出在本端或者对端。最常用的办法还是逐段环回法,这样可以把问题定位到某一段。如果能定位到设备,可以采取换盘(支路盘、交叉盘)的方式来处理。三、典型案例1线路故障导致的误码1)故障现象上图为 ZXSM385 设备组成的 10G 复用段环。2010 年 9 月,日常维护中查询凤阳交警队
14、 7#OL64 出现复用段远端背景误码块 FEBBE 和远端误块秒 FEES,定远中行 10#OL64 出现复用段背景块误码 BBE 和误块秒 ES。2)故障排除步骤当日深夜维护人员到达凤阳交警队站点与定远中行站点。到达定远中行站点后测量 1110-1RX 口收光功率为-16.5DB,正常。通过对定远中行 1-1-10光盘、凤阳交警队 1-1-7 光盘分别加损耗器自环,发现光盘相应的误码消失,从而确定是光缆纤芯原因。再与凤阳交警队站点联系将两站点的在用光纤对调,发现误码现象正好与对调前相反,从而确定是定远中行收凤阳交警队发的那个纤芯有问题。从而可知,光盘无故障,接收光功率也正常,为此判断为此纤
15、芯色散等参数满足不了 10G 设备,由于 10G 设备对纤芯色散等参数要求高。故我公司采取对此纤芯进行更换,误码故障消失。3)结论和建议主干环网元的日常维护尤显重要,所以要加强这方面的工作,性能值的查询,模拟性能的跟踪等等。2风扇故障,导致设备散热不良。1)故障现象中兴 2.5G 汇聚层由 ZXSM380 组成 2.5G 复用段环 1 和烽火 155M 接入层环 8(如上图),汇聚层与接入层是通过烽火 155M 设备永康 1 和总铺与中兴 2.5G 设备永康和总铺双节点对接。2009 年 8 月发现永康站点 15EL1-4 板第 1 光口(与接入层永康烽火 180 设备 5#O155-1 光口
16、对接)上报少量的复用段误码,烽火 180 设备5#O155-2B-1 光口出现远端复用段误码。2)故障排除步骤维护人员次日凌晨到达现场后(不影响客户的正常使用),测试对接光口收光功率,正常。将光板自环,误码消失。但恢复后故障依然。维护人员仔细检查了设备运行情况,发现设备机壳温度过高,经检查发现设备风扇防尘网堵塞严重,抽出风扇防尘网,误码消失。至此故障确认,清洗晾干后插入设备,运行正常。3)结论和建议在机房的防尘效果不好时,风扇防尘网容易赌赛,这时就需要定期清洗防尘网,否则风扇不能正常散热,导致设备温度过高,会产生大量误码。建议每月清洗防尘网两次。3时钟板故障引起误码1)故障现象上图中烽火 15
17、5M 本地网组成一个 155M 通道环。三界 2 是挂在三界上的支链。2008 年 9 月份间,三界及三界 2 的 E32 板有时会出现少量误码性能值。没有影响业务。2)故障排除步骤查询三界设备光板的性能值,有比较大的指针调整。然后查询其 E32 板性能值,有较大的指针调整及少量的误码性能值。查询三界 2 现象相同。查看三界的当前时钟状态,为捕捉状态。改变线路抽时钟的方向,仍为捕捉状态。通常情况下,误码不会引起指针调整,而大量的指针调整则会引起误码。因此先处理指针调整的问题,指针调整则可能是由于上游站或本站光板提供的参考时钟源有问题,也可能是本站的时钟板有问题,而改变抽取方向后,故障仍没有消除
18、则说明是本站的时钟板的问题。维护人员到达现场后,发现该设备时钟板 RUN 灯一直快闪,ALARM 灯有时闪亮。说明该板不能正常工作。将其硬复位,没什么变化。更换后,自检完成后,误码消失。在网管上进行 24 小时误码测试,无误码,故障排除。4接地不良引起误码1)故障现象上图为烽火 550B-2.5G 互联互通环。2009 年 5 月,发现邮政局 550B 设备3#E-63 盘出现大量 2M 端口 HDB3 违例编码计数值,影响电路可用性。2)故障排除步骤查询 E-63 盘性能值,上报 HDB3 违例编码计数。怀疑为接地问题,检查设备接地,良好。检查 DDF 架,发现 DDF 架的地线是接在走线架上的。改接到地排上后,HDB3 违例编码计数故障消失,电路可用了。3)结论和建议通信中对接地要求都是比较高的,由于接地的问题造成大的损失(光缆、馈线、电源柜等被雷击损坏)时有发生,造成因接地问题造成传输侧与交换侧或基站侧对接不通的案例也为数不少。所以施工中,一定要要求施工队严格按照施工规范来做。结束语误码问题在平时的维护工作中,经常遇到。由于其告警点的不确定,所以在处理的过程中,必须全盘考虑,不放过每一个可能引发误码的细节,扎扎实实的处理才可以使问题顺利解决。所以,日后本人得继续加强理论知识的学习。在实践中使理论知识得以升华,更好的提升自己的维护能力。