收藏 分享(赏)

OP保护.doc

上传人:hskm5268 文档编号:5819348 上传时间:2019-03-18 格式:DOC 页数:15 大小:1.63MB
下载 相关 举报
OP保护.doc_第1页
第1页 / 共15页
OP保护.doc_第2页
第2页 / 共15页
OP保护.doc_第3页
第3页 / 共15页
OP保护.doc_第4页
第4页 / 共15页
OP保护.doc_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、目录1、OP 保护倒换状态查询失败 .22、网元(NCP)无法对 OP 单板进行实安板 .33、OP 保护组配置 APS 控制器失败问题 44、安徽电信省干波分 OP 配置问题 65、OP 保护组配置网管下发不能将 NCP 原有保护组数据清除问题 66、OP 单板在 9 号槽位时,OP 保护配置信息无法正确显示 .77、河南联通 OP 倒换故障 88、测试 OP 保护时间过长的问题 99、OP 保护线型保护外部命令名称容易产生歧异 .910、路由器时钟设置有误导致 OP 板异常倒换的故障 1011、有关 OP 单板故障 案例 1212、DOP 单板无法配置保护组问题 .1313、OP/DOP/

2、SOP 的网管配置问题 141、OP 保护倒换状态查询失败故障现象:在配置完 OP 保护后,查询 OP 保护状态,发现查询部分成功。故障分析:可能原因为 OP 单板没有配置有关保护信息和单板故障,所以上报“报文内容错误” ,现场工程师通过多次删除保护组后,又重现配置,还是出现一个网元查询失败。在配置保护组时,选择网元时,如果先选的网元,在配置保护组后,查询状态是没有问题的。现场网管版本为 E300 317R2P04C,配置步骤如下:在第二个设置界面时,选择设置所有网元,而不是再选另一个网元进行重新设置。由于 317 网管 bug 导致;在设置所有网元时,并不一定成功。 (网管没有提示不成功)故

3、障解决:重新删除保护组,进行重新配置,在第二步选择网元:是一个网元一个网元进行设置。不要使用设置所有网元。317 网管同样的 bug 在 OPCS 配置保护组也存在(由于 OPCS 配置不成功,在计算多播组就没有该网元,比较容易发现) ,318 网管这个菜单设置是没有问题的。2、网元(NCP)无法对 OP 单板进行实安板故障现象:在郑州信阳段配置 OP 单板时:发现插到子架上的 OP 单板,网管 NCP 没有办法进行实安板。显示为无实安板信息。网管上界面上手动配置上 OP 后, OP 单板报板不在位告警。故障分析:重要数据的第 16 字节,来定义用在 2M 还是 100M 监控系统上,这个字节

4、会影响检测方式不同。位置 公共数据含义 备注1,2 重要数据长度 此后的字节长度,不包含这两个字节。3 单板类型 如:4,5,6,7 硬件版本号815 保留16 2M/100M标识 1:2M版本软件2:100M版本软件NCPF 对应的是 100M 版本,NCP 对应的是 2M 版本。郑州信阳的 M900 配置的是 NCP。而现场所有 OP 单板数据的第 16 字节默认为 02,即 100M 版本的 NCPF。NCPF 既可用在 2M 系统也可用在 100M 系统中,对于单板 boot、逻辑、应用程序是一样的,是通过 Agent 不同来区分的。解决办法:如果OP单板插在OA子架,先在网管手动配置

5、上一块OP单板,可以直接通过修改重要数据16字节为01,复位后,拔板,再进行实安板。如果OP单板插在OTU子架,读不上来重要数据。在网管上进行硬复位后,NCP可能会上报一个插板告警,持续时间几秒到10秒,也可能NCP不上报插板告警。现场复位了几次,只上报了一次。需要把 OP 放在 OA 子架上,修改重要数据后,再插回 OTU 子架槽位。附:NCPF查看单板在位的办法。用telnet 命令登陆到NCP上,输入VWC 回车,显示NCPF的配置IP地址,再回车可以看到单板硬件、软件在位情况:* 表示软件在位,#表示硬件在位。1、NCPF可以看出来2、telnet到NCP板上,VWC后,两个回车,显示

6、不出来* ,#。提示 hardware not surport3、OP 保护组配置 APS 控制器失败问题故障现象:上饶电信网管升级至E300 V3.18R2P11C后有两块OP单板配置通道1+1保护组设置APS控制器时提示“本命令对该单板无效”。查看有这两块OP应用程序版本和其它正常的OP应用程序版本相同,都是V2.26.003,但是硬件版本不相同,不能正常配置的为040102,可以正常配置的为020100。更改了OP单板重要数据,将单板属性中的无光中断门限设为“不可设”(发现可以正常配置的OP都是设置的不可设)后,重新配置保护组还是一样。正常OP单板的重要数据:00165903012100

7、0000000000000000010102020105060100FFFF异常OP单板的重要数据:001659030141020000000000000000010202020115160201FFFF故障分析:经分析,重要数据存在问题。异常OP单板的001659030141020000000000000000010202020115160201FFFF中,其中的01存在问题,需要改为02。这个字节定义:0x01:兼容2.22版本模式0x02:G.841保护倒换模式(默认)0x03:APS执行器模式只要是非01 非03,其他值默认都是G.841模式故障处理:将重要数据进行了更改,更改后设置A

8、PS控制器不再提示错误,问题解决。4、安徽电信省干波分 OP 配置问题故障现象:网管查 OP 性能值发现返回的性能值是*,代表入光过强,实际的入光应该是 9dBm 左右。以下是连纤图,目前系统的上的波数较少,大部分地方 OP 入光不会报过强,但如果以后扩波后,第二级 OBA 功率增大后 OP 都会报入光过强告警。故障分析:输出超过 OP 的入光范围,需要调整连纤方式。是商务配置问题。故障处理:改成 OPA-LACG-OP-OBA 的方式。 这样还可以省一块 OBA 出来。这样 OP 就有无光倒换的条件了。5、OP 保护组配置网管下发不能将 NCP 原有保护组数据清除问题故障背景和现象:江苏电信

9、省干开通调试中,发现在OP 1+1保护组配置下发后,查询某些站点的线性保护组使能,发现有多出来的保护组使能情况出现;同时保护组倒换出现问题。此问题在苏州城域波分中也出现过。现场临时解决办事是将NCP板数据库清空,并且重新下发配置,将复用段保护组设置重新应用一遍!故障分析:出现此类情况应该是在出厂调试或者我们在前期调试中已经建过了保护组,比如保护组1,但后来在全网统一建立保护组时又将该网元保护组建成保护组3,这样下发保护组数据后,后下发的保护组3的数据并不能将网元NCP板内存在的保护组1数据清掉!导致在查询线性保护组使能是发生实际配置一个保护组3,但查出来有保护组1、3使能的情况。后续跟踪(中试

10、答复):1.写入工艺文件,发货前将调试配置的保护组删除2.网管提需求,界面上删除保护组,的同时将 NCP 上的数据也清除(我之前认为网管就是这样执行的,难道不是?)故障总结:我觉得出现此问题比较严重,应该实验室验证(从中试陈刚的反馈来看他以前一直认为网管会自动清除 NCP 板数据的)并且提出具体的解决办法。前面都只是预防及一些治标不治本的方法。6、OP 单板在 9 号槽位时, OP 保护配置信息无法正确显示故障现象:OP 单板放置在非 0-2-9 槽位时,在下图的配置菜单中出现 OP 做为 APS 控制器时,APS 控制器配置为 APSF 单板的 IP 地址。网管版本:E300V3.18R2p

11、07B Agent:3.08.029故障分析:研发定位网管的GUI故障,确实是GUI程序处理有问题,把9槽位的都显示出了IP。研发这边分析是对保护功能没有影响。测试是否导致了现场保护功能故障,没有发现对OP保护有影响。暂计划在 3.08R3 和 3.09 版本修改。7、河南联通 OP 倒换故障网络情况:河南联通省干全省四个环采用中兴 M900 组建,本次河南联通省干波分保护方案在郑州开封商丘段进行线路保护,OP 板放在线路中。故障现象:工程安排先做郑州开封复用段线路加 OP 单板。1、网管上实安板后,配置为通道保护。在 OP 板的单板属性应安板 /告警保护类型里修改为复用段保护,网管 OP 单

12、板上报板不匹配告警,复位 OP 单板后,告警消失。能正常配置 OP单板了。2、把 OP 单板连接好光纤后,RIN1 口的输入为18.5dbm,RIN2 口输入为23.5dbm, 拔纤 RIN1口光纤,OP 不能倒换到保护通道。检查 OP 保护组数据也没有任何问题。3、更换一块 OP 单板后,拔纤倒换正常。但是,倒换恢复的等待时间长达 5 分钟。即把 RIN1口光纤拔掉,再插回光纤,5 分钟才倒回到工作通道即 RIN1 口。而网管上设置的等待恢复时间是默认的 20 秒。明显有问题。4、网管上做“人工倒换” ,OP 单板不倒换。而其它的强制倒换、锁定工作、锁定保护、清除功能都正常。5、郑州 OP

13、单板的 IN2 口( 23.5dbm)上报无关告警,每次持续时间 36 秒钟,频率很高,一小时十几次,开封收郑州的 OP 单板也存在这种情况,但是频率较低,一小时一次左右。故障分析定位:1、实安板为通道保护,由于 OP 板保护有通道保护和复用段保护之分,在单板的重要数据有一位用来区分。网管上读取为第 20 字节(从 1 数起),应该是 02 才对。可能存在发货时设置为01。2、出现故障现象 2 的情况,当时只能怀疑为单板故障。3、故障 3 和 4 就没有办法解释了。4、故障现象 5 很奇怪。仔细查询发送端 OBA 的告警和性能,没有任何问题,接收 OP 的 RIN2出现瞬间的无光告警,如果是线

14、路问题,不会发生得这样频繁,变换也是慢变化,由有光到无光需要一个过程。但是网管读到的性能最高为23.5dbm,最低为“” 。没有查询到其它更低的性能值。最后通过多方联系和确认,现场 OP 单板为通道保护的,功率检测范围为 314dbm 。而现场实际情况是复用段保护,功率检测范围为-3-28dbm。两种 OP 单板除重要数据的第 20字节用来修改软件上是按通道保护或复用段保护来处理。最重要的是两种 OP 单板的光功率检测电路所焊接的电阻不一样。OP 单板最低能检测到31dbm,需要经过特殊改造。现在来看以上的故障现象,就不难理解。故障现象 1:只是软件上改为复用段。故障现象2:该单板就不倒换,O

15、P 单板倒换的条件为 IN1 口输入无光,IN2 口输入有光。该检测电路虽然检测到了光功率(可能不稳定),但是 OP 始终认为 IN2 为无光来判断。故障现象 3、4、5:也是因为检测到光功率不稳定、本身就不能准确的检测到18 以下的光功率。导致网管不能做人工倒换、倒换恢复的时间过长及 RIN2 口频繁瞬报无光告警。最后 OP 板经过改造后,保护倒换一切正常。思考:工程中如何区分用于通道保护OP的ECC编码: 123350730278 OP(通道保护,LC)用于复用段保护 OP 的 ECC 编码: 123350710222 OP(LINE LC)目前发货的单板:用于复用段保护的 OP 板,面板

16、上有“LINE LC”的标记,用于通道保护的 OP面板上没类似标记。早期发货的 OP 单板没有标记,如果想区分,可以根据它们 PCB 板上的电阻不同加以区分:如果用于复用段保护:R38,R40 为 51.1K,R39,R41 为 47.5k如果用于通道保护:R38 、R39、R40、R41 都是 10K8、测试 OP 保护时间过长的问题故障现象: 济南至德州一通道采用 1+1OP 保护,在济南挂表,德州环回,拔纤测试保护倒换时间,在德州拔发济南时,倒换时间正常,在 50ms 以内;在济南拔发德州时,倒换时间大于 2s。故障分析:R I N 1R I N 2T O U 1T O U 2R O U

17、 TT I NR I N 1R I N 2T O U 1T O U 2R O U TT I NS D H 分析仪发收O P ( 德州 )O P ( 济南 )如上简图,中间单板和线路已省去。在济南拔发德州 OP 板的 TOU1 时,对端德州的RIN1 此时输入无光,德州 OP 板倒换到 RIN2,但在德州 OP 板的 RIN1 输入无光倒换到RIN2 的过程中,有一短暂的时间,德州 ROUT 输出无光,经环回到 TIN 输入也无光,从而致使 TOU1 和 TOUT2 在这一短暂的时间里同时输出无光,从而使济南工作业务板和保护业务板 OCH 侧都输入无光,因 APSD 使能而产生一个开关激光器的过

18、程,从而使倒换时间过长。故障处理:以上图的方式挂表和环回,可以准确的测出德州发济南断时的保护倒换时间,如需要测试济南发德州断时的保护倒换时间,需在德州挂表才能准确测出。9、OP 保护线型保护外部命令名称容易产生歧异故障现象:福州处员工反馈在网管上操作 OP 复用段 1+1 保护线型外部命令时,如果先将保护组强制倒换到备用以后,再下发“锁定保护”或“锁定工作”业务都会倒换到工作通道去。办事处员工认为“锁定保护”就是将业务锁定在保护通道, “锁定工作”就是将业务锁定在工作通道。故障分析:问题是因为对线型保护外部命令理解错误产生的。实际上两个命令都是将业务锁定到工作通道,只是做用的范围不同而已,详细

19、定义如下:“锁定保护”:该命令针对全网,不区分方向;命令下发后,网络中保护通道不发挥作用,全网都工作在工作通道上,即使光纤断裂也不会发生倒换。“锁定工作”:该命令针对某网元的某一方向业务,仅将该业务锁定在工作通道上,即使光纤断裂也不会发生保护倒换。对于 OP 保护,如果一端锁定保护,并不会影响到另一端,因为没有协议信令过程;因此锁定工作和锁定保护效果一样。都是针对一个网元的。故障处理:虽然问题属于理解错误,但是网管菜单中“锁定保护” 、 “锁定工作”的命令名称确实容易让人产生歧义,如果修改成类似环型保护外部命令菜单一样的名称会较好理解,如“跨段保护锁定” 、 “工作信道锁定” 。10、路由器时

20、钟设置有误导致 OP 板异常倒换的故障故障现象:S R M 4 1蠡园A 点3O PS R M 4 1O PB R4S R M 4 11S R M 4 12M P I - RM P I - SS nR n/ O T U 1 0 G/ O T U 1 0 G/ O T U 1 0 G/ O T U 1 0 GB 点工作通道保护通道A R9 月 25 日对 OP 板进行测试过程中发现: 先断 1 处尾纤时,BR 发生正常倒换到备用; 然后再断 2 处尾纤时,发现 AR 能正常倒换到备用; 但同时发现 BR 也发生了倒换,又倒换到主用上去了(此时 1 处尾纤是中断状态) ,等待了 WTR 时间后倒回

21、到 RIN2 上。导致业务中断了 WTR 时间。故障处理:此时查看性能、告警发现青岛东海路业务单板收到AR1发过来的大量误码,并将其传回潍坊,致使潍坊的主备业务单板关断激光器,此时由于主备用都无光,OP默认恢复到主用,当瞬间大误码消失后,潍坊主备SRM41单板都打开激光器。然而OP板并没有立即倒回到RIN2上。而是等待了WTR时间后回到了RIN2上。WTR时间是可设置的,一般工程实际中不会设置很长时间,默认是20秒。OP单板2.27.002及后续版本倒换时间改成了3秒,即工作、保护通道都无光后,保护恢复入光需要等待固定的3秒才发生光开关的倒换(现场版本是2.26.003)。截图如图:而后插上潍

22、坊主用的收,业务恢复,工作在主用上。1、 之后,将青岛的路由器的时钟同样调整为主用;及两端都设置成内时钟A、 断潍坊主用的发,无误码,倒换正常,然后恢复,强制到倒换回工作,无误码,倒换正常;B、 先断潍坊主用的收,倒换到保护通道,无误码,业务正常,再断主用的发,无误码倒换正常故障分析:当路由器设置成主、从时钟模式的时候,此时断主时钟侧主用的发(或者断从时钟侧主用的收)此时我从时钟侧业务单板会收到路由器产生的瞬间大误码,由于我们业务单板设置了 SD 误码倒换,当误码很大时(SD 是 B1/B2 误码率在 10-6 发生倒换) ,APSD 功能起作用,业务单板激光器关断,OP 发生倒换。由于 OP

23、 单板状态当主备用都无光时,OP 自动恢复到主用状态。所以此时如果主用收断纤,业务将受到影响。那么路由器的误码是怎么产生的呢?路由器误码的产生与路由器的时钟设置有一定的关系,如设置成主从时钟,此时从时钟如果收不到时钟,路由器的发就会产生大量的误码。误码的大小与路由器的厂家和型号都有一定的联系。根据测试结果初步分析是思科的路由器出现大误码的概率大一些,而如果两端都是华为的路由器则大误码产生的概率较小,引起激光器关断的概率低。故障总结:如果我们前期或者以后的工程配置中,有类似的保护(单板和路径的保护)时,需要把两端路由器都设置成内时钟,这样才能保证 OP 板正常倒换。【触发单板APSD时,为了相应

24、迅速,计算误码的时间范围为10ms,也就是说统计10ms内的误码数,如果超过门限就关激光器。而支路性能量的误码率是按15分钟来统计误码率的,所以如果有瞬时误码,以15分钟来统计时看上去误码率很低,但以10ms统计时误码率可能很高,足以触发apsd倒换条件】11、有关 OP 单板故障案例故障背景及现象1、当 RIN1 和 RIN2 口同时接上光纤并且都有光的时候(-8dB 左右) ,OP 单板就自动重启,或者当 RIN1和 RIN2 都有光时,单板能正常运行,当输入口 1 或者 2 无光时,单板就重启,并一直重启(单板跑不起来) ;2、扩容单板时,单板无法进行实安板,如拔掉相邻的业务单板,OP

25、能正常实安板、正常倒换;3、单板运行中,无规律重启;4、OP 经常出现“板不在位告警” ;5、单板在运行过程中;瞬报 RIN1 和 RIN2 输入口无光告警,OP 频繁发生倒换。 (RIN1 和 RIN2 的输入光功率一致没有变化在正常范围如210 之间) ;以上涉及到版本 228001 及以前的版本;OP 单板工程中主要的版本为 226003 和 228001。影响保护倒换。故障分析:OP 单板 S 口处理问题;其它单板对 OP 单板处理中断有影响,屏蔽硬件中断解决。故障处理和解决:升级单板程序到 228004;修改重要数据第 18 位为 0x5A,该版本的重要数据 18 位发生重大变化。如

26、下:0x5A-屏蔽硬件中断,采用软件采集处理无光倒换其它值-启用硬件中断,采用硬件中断处理无光倒换228001 的重要数据是 26 位,228004 的重要数据是 30 位。例子:228001 版本的重要数据:00165903017A000000000000000000010202020115160100FFFF228004 版本的重要数据:00165903017A00000000000000000001025A020115160100FFFFFFFFFFFF12、DOP 单板无法配置保护组问题故障现象:在 DOP 单板进行配置保护组时,设置保护的 APS 控制器配置菜单上报 AG0X2010

27、 错误。没法进行配置:故障分析和处理:由于重要数据第 19、20 字节设置为 01 的缘故;19 字节表示第一路 APS 工作的方式:01:单板自主保护模式;02:为 APS 保护组模式: 20 字节表示第 2 路。设置不成功的重要数据;设置成功的重要数据:0x01: APS 自动自主保护模式;0x02: APS 保护组模式;(缺省)0x03: APS 执行单板模式。19 第 1 路 APS 工作模式对于取值非上述规定取值的情况,缺省按照 0x02 的工作模式处理。模式修改复位后生效。0x01: APS 自动自主保护模式;0x02: APS 保护组模式;(缺省)0x03: APS 执行单板模式

28、。20 第 2 路 APS 工作模式对于取值非上述规定取值的情况,缺省按照 0x02 的工作模式处理。模式修改复位后生效。生产发货把第 19、20 字节设置为 01 的模式;已经反馈生产线,从 09 年 9 月份发货默认都是 02 了。之前的合同需要更改这两个重要数据为 02。13、OP/DOP/SOP 的网管配置问题一般情况下,OP/DOP/SOP 保护配置可不用连接光纤,搜索业务(路径) ,在配置保护组也不要进行添加业务(路径) 。只需要进行上述界面的配置,不要进行“下一步” ;直接点击“关闭” 。网管上连接光纤、搜索业务、配置添加业务(路径)的目的是:可以显示端对端和告警和性能;可以动态显示工作和保护。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报