1、传输网络日常在线维护操作的一点心得中国联通北京分公司 丁震传输网是电信系统的命脉,也是信息高速公路的干线,对电信业务的安全、可靠、快速、准确传递起着至关重要的作用。联通公司目前正处在飞速发展时期,各种新业务、新功能不断推出,用户数量也不断增加,对传输基础网络的传送容量、质量、安全性等要求也越来越高。传输网络一直在不断地进行扩容、改造、调整,以适应当前的网络需求,同时要求保证为业务部门提供稳定高质量的网络,减少日常维护工程等工作对正常运行业务的冲击。日常工作中,传输维护人员主要的任务包括故障排查、支路线路扩容、开环加点、网络保护优化、网络性能质量监控等。作为一名维护人员,要善于总结和归纳,不但要
2、掌握网上运行设备的原理和特性,而且还要将其运用到日常工作中,确保为其他业务部门提供一个高效稳定的网络。下面就以华为设备为例,结合日常维护中的线路扩容和开环加点两个实例,简单介绍一下个人的一点心得体会。一、华为 155M 两纤单向通道保护环由于 63 个 VC12 都已用完,须扩容线路到 622M 容量(组网见图一,A、B、C、D 四点组成 155M 两纤单向通道保护环,集中型业务,A 为中心站,设备类型为 OptiX 155/622) 。该环扩容可以使用两种操作方案:方案一:A、B、C、D 同时把本站的东西向两块 SL1 光板拔出,换上 SL4 板,下发该站的命令行配置文件,完成该环的扩容任务
3、。业务中断时间为更换光板的时间和下命令行的总和,中断时间较长,在环上节点数目较多时,还要占用大量的人力物力。而且无论环上哪个节点出问题,都有可能影响到环上的所有业务。方案二:利用华为设备组虚拟环的功能,结合环路保护倒换功能来完成无中断扩容。例如先把 A 站东向光板和 B 站的西向光板升级成 622M,然后从中抽出 1 个VC4,让 A、B、C、D 组成一个虚拟的 155M 环,然后顺序升级 BC 之间、CD 之间、DA 之间的光板,完成该环的扩容。这样做可以不影响已有业务,即使有瞬断,也在 50ms 以下,符合 ITU-T 的规定,不会对交换等业务造成影响。方案二详细实施步骤如下:首先扩容前要
4、做好准备工作,主要包括现运行数据的检查,扩容配置命令的准备等,这里不再详细描述。主要操作操作步骤:1) 由 A 点开始,将 A 点东向光板和 B 点西向光板光纤同时拔掉,将 SL1 板换为 SL4 板。2) 测试实际收发光功率,收发功率正常后,插好拔掉的尾纤,下新的命令行配置,目的是将 SL1 板和新插入的 SL4 板的第一个 VC4 组成一个新的 PP 环。3) 检查网管告警,光路告警是否恢复,一切正常后再进行下一步操作。4) B 点的东向光板及 C 点的西向光板拔掉,将 SL1 换为 SL4,如上下发新的命令行配置。5) 检查网管告警、光路告警是否恢复,测试实际收发光功率是否正常,再进行下
5、一步操作。6) 按如上步骤依次顺序升级全环各网元,最终将全环升级为 622M的 PP 环。说明:1) 用此方案进行扩容是利用了华为设备独有的虚拟环特性,在扩容过程中,把已扩容成 622M 中的第一个 VC4 与原有的 155M 环路对接起来,组成新的 155M 通道保护环,保证继续扩容时在用业务不受影响。2) 业务瞬断会发生在拔光纤的过程中,也就是通道保护环进行倒换的时间,小于 15ms。3) 每个站都需要下发两遍命令行:第一遍是西向板为 SL4,东向板为 SL1;第二遍是两方向都为 SL4;其中 A 点的命令行配置,第一遍西向板为 SL1 东向板为 SL4,第二遍最后下发两方向都是 SL4。
6、第一遍命令行为:(以 B 点为例,此处只列举关键步骤):cfg-create-board:1,pl1:9,gtc:11,sl4:12,sl1:15,stg;/设定网元板位:cfg-set-attrib:155:2f:uni:pp:adm:ring;/设定逻辑系统属性:cfg-set-gutumap:gw1,11,sl4,1;/设定 622M 中的第一个 VC4 为西向线路:cfg-set-gutumap:ge1,12,sl1,0;/设定东向线路第二遍命令行为:(以 B 点为例,列举关键步骤)以下只列出与第一遍不同的地方::cfg-create-board:1,pl1:9,gtc:11 /设定网
7、元板位(与第一遍不同):cfg-create-lgcsys:sys1; /创建逻辑系统:cfg-set-attrib:622:2f:uni:pp:adm:ring; /设定逻辑系统属性(与第一遍不同):cfg-set-gutumap:gw1 /设定西向线路(与第一遍不同):cfg-set-gutumap:ge1 /设定东向线路(与第一遍不同)二、利用 T2000 网管对复用段环增、删节点两纤单向通道保护环由于组网简单,在开环加点时只需注意做好相应业务的穿通就可,我们以下只针对复用段环进行讨论。在 T2000 网管没有应用之前,复用段环加点只能用命令行来对环上所有节点进行逐一配置,操作复杂,危险
8、性较大;而 T2000 网管作为一个子网级的网管,可以自动设置复用段的节点参数,大大简化了复用段环增、删节点的过程,可以做到不影响现有业务。(一)开环加点如图二,A、B、C 三点组成 10G 两纤双向复用段保护环,主环方向 A-B-C,在 AB 之间加入一个 D 网元为例:操作方法及步骤:1) 扩容前请做好网管和网元的数据同步,做好网管数据备份(导出脚本文件、备份网管MO数据),以备扩容失败数据恢复使用。 2) 扩容前使用LCT或者(命令行)做好新增扩展子架的单站调测,查询AB之间的业务,在D站做好相应业务的穿通,确保新增网元在配置上没有复用段逻辑系统或者所属的复用段逻辑系统协议处于停止状态。
9、3) 检查原复用段环状态,保证其处于启动的正常状态(未倒换,设备正常工作,避免两处断纤造成业务无法保护的情况)。4) 从网管上将原SDH保护子网在需要拆除光纤的两端的一端进行强制倒换,比如在A网元的东向端进行强制倒换,强制业务工作在保护状态,这时候可以将实际的光纤连接断开。5) 注意:要记住是在哪端下发了强制倒换!第6步要用到。6) 然后从网管删除需要改变的光纤连接(网管会自动删除网络侧复用段保护子网)操作方法为在纤缆管理中右键删除纤缆,在弹出的对话框中选择“继续”(这样不会影响网元数据)。7) 在实际设备上从A网元东向进行光纤连接,连接到新增D网元的西向,将新增D网元连接到实际的网络中。8)
10、 在网管上建立新的光纤连接关系(AD之间和DB之间),并按新的光纤连接建立新的复用段保护子网A、D、B、C(这时候如果网元上的逻辑系统和建立保护子网需要的逻辑系统一致,网管不会再次下发逻辑系统,仅仅节点参数不一致,网管会下新的节点参数,但不会启停协议,所以不会影响到原来的强制保护倒换,新增站点的逻辑系统下发后其协议会自动启动)。9) 在网管上停止D站点的复用段协议,注意,一定不能停其他站的协议!10) 检查新增站点的业务,保证正确。(建议这时候实际测试一下,断开A、D之间相应的光纤没有关系)。11) 保证D站点的复用段协议状态为停止态(如果不是停止态,停止协议的时候一定不要全网一起停)。按照扩
11、容后的光纤连接将A、D之间和D、B之间的实际光纤连接好。12) 再次确认光纤连接和新增站点业务是否正确(因为后面一步就要停止A、B、C的协议了)。13) 从网管将新的复用段保护子网的协议停止(选择多个网元一起下发停止协议的命令),各站业务恢复到正常工作状态(因为新站已经做好了该穿通部分的业务,所以业务只会有ms级的中断)。14) 确认业务正常,如果有异常,立即启动所有网元(ABCD)协议后在A的东向及B的西向进行强制倒换,恢复到刚才的强制倒换状态下,检查新站穿通业务是否正常。15) 选择所有网元(ABCD)启动新的复用段保护子网的协议,这时候网管在启动全网所有网元的协议前会对每个网元重新下发一
12、遍节点号,再启动协议。所以不用担心节点号有错误。16) 在网管上进行增量电路搜索,将电路纳入路径管理的范畴。说明:1、一定是连接A网元东向到D网元西向的光纤而不是B网元的西向到D网元东向的光纤,也就是说是连接下发强制倒换命令的光口到新增站点间的光纤,而不是被动强制倒换端到新增站点间的光纤。2、业务瞬断发生在以下步骤中:(1)强制倒换时的瞬断;(2)停止全网协议的时候清除倒换时的业务瞬断;(3)启动全网协议时可能会有瞬断;3、T2000对关键参数的处理分析都已经在操作步骤中,此处不再描述。整个操作过程简单明了,而且全程利用网管操作,安全可靠。以上是我在日常维护中积累的一些维护经验,供大家参考。在
13、对华为设备的维护过程中,得到了华为公司和北京办事处技术支持人员的大力帮助,从他们身上看到了华为人的敬业精神,希望在以后的工作中,不断学习,不断提高,保障传输网络的安全畅通。【丁震简介】丁震同志 1999 年毕业后一直从事传输设备的维护工作,经验丰富,技术全面,有强烈的团队合作精神和集体荣誉感,有很强的分析问题,解决问题的能力,在故障发生时能迅速准确的定位故障点,并及时排除、熟悉华为润讯、诺基亚等各种传输设备维护软件的操作,为联通公司传输网络的稳定、安全的运行作出应有的贡献。传输维护经验心得中国联通邯郸分公司王燕滨系统的学习理论知识是做好维护工作的基础。在 2000 年 7 月我来到了中国联通邯
14、郸分公司,参加工作不久我作为随工参加了本地网骨干环的工程建设,从此,我和传输、华为就有了一种不解之缘。在本地网骨干环的建设过程中,我学到不少传输方面知识,但是因为没有经过系统的理论培训,实际工作还是有捉襟见肘情况;这时华为公司给了我一次绝好的机会A 培。通过 A 培使我对 SDH 原理,计算机原理,网络知识等理论均有了深刻的理解,并且深化了我对网管和命令行的认识,这均为今后维护工作夯实了基础。认真积极的工作态度是一名优秀维护人员的必备条件和基本素质。我在平时的工程维护工作中积极主动的向华为工程师学习新技术、新知识,并由开始的在华为工程师的监督和帮助下完成工作到独立完成工作。有一次,华为工程师因
15、为生病不能参加割接,由于工程时间紧任务重,我们决定自己割接,凭着平时工作的经验积累,我们顺利的完成了业务割接并且数据设定也很规范,这样就节约了很多时间。在近两年的设备维护当中,使我积累了一些经验,尤其在作割接、扩容时,一定要有认真负责的工作态度来对待并给予高度重视。操作完毕后应认真检查硬件安装、光纤连接;在确认业务恢复查询告警时,不能只通过网管确定,还要得到机房人员的业务恢复确认,只要我们做到认真细致的工作,就可以避免许多故障,减小损失。日常例行维护工作要求实细致并注重经验的积累和隐性问题的发现。日常例行维护是指每天必须进行的维护项目。它可以帮助我们维护人员随时了解设备运行情况,以便及时解决问
16、题。这项工作可以说是长期的一项工作,决定不能因为其繁琐性和机械重复性而稍有懈怠。做为一名好的维护人员,不仅是在问题出现时能迅速地定位、解决问题;而更重要的是在故障产生前,能够通过例行的维护工作及时发现故障隐患、消除故障隐患,使设备长期稳定地运行。对设备良好、有效的维护,不仅能够减少设备的故障率,并且可以延长设备的使用寿命。在将日常例行维护工作做实的基础上,应该建立详细的维护资料,这也有利于对于设备的管理并减少故障恢复时间。好的心理素质有助于故障定位,减少故障恢复时间。因为传输设备在网上的地位十分重要,是各种业务的道路。我在刚参加工作不久处理问题心理十分紧张,造成定位故障很不准确,这一方面是刚参
17、加工作业务不熟,二是心理素质不过硬,三是经验不足。在经过一段时间经验的积累和华为工程师的指导之后,一是对原理有了一定的了解,二是经验也有了一些积累,三是处理过一些故障之后自信心也有了一些加强,所以对于网上出现的问题会保持清醒的头脑,先处理再进行认真分析,并做好恢复工作的处理记录,切忌只恢复不总结!做好网络配置优化。作为一名优秀的维护工程师,如果只停留在设备有故障再去处理,那么就不是一名完全意义的网络工程师。要维护好网络,必须先熟悉网络,再改造优化网络,最终达到资源最优化网络。在网络初建之时可能由于种种原因不能考虑得非常清楚详细,伴随着业务的发展和多样化,网络从自愈保护到时隙复用均不能满足日益发
18、展的客户需求,这时只能进行网优。传输网优要从网络自愈功能角度出发因为安全必须是第一位的,再次是最大程度的满足客户需求,其次是充分利用现有资源。以上均需要我们维护人员对于时隙资源、槽位资源、交叉板的总线资源、ECC 资源有一个数学的逻辑思维来计算。维护人员应该是严谨的、求实的、责任心强的。以上我们谈及的均是以这为基本条件,“可能“、“大概“、“也许“等等模棱两可、不负责任的话语绝对不能出自我们的话语,否则网络的无问题可能转化为小问题、网络的小问题可能转化为重大事故,这都是有过血的教训的。而且就算是技术能力很高,业务能力很强也要杜绝麻痹思想,因为很多重大事故均是由此产生的。下面有几个在我日常维护和
19、工程中遇到的问题同大家分享。1 经验总结1.1 时钟问题处理【组网图】组网为一个 Optix2500MSP 环,1 号站为网管中心站,1 号站到其它各个站有业务,1 号站外接时钟,其他站跟踪 1 号站时钟,并且此环设置了时钟保护子网,各站的时钟优先级设置分别为:1 号站:ex18k/sets2 号站:w/e/sets3 号站:w/e/sets4 号站:w/e/sets【故障现象】某日 4 号站到 1 号站之间光缆中断,复用段正常保护倒换,业务正常,4 号站有 LTI、SYNLOS 告警,一段时间之后查看 1 号站的性能,发现 4 号站到 1 号的所有业务均有很大的指针调整。【故障分析和处理】指
20、针调整一般情况都是由于时钟源不一致的原因引起的,此环设置了时钟保护子网,环路正常时,1 号站锁定外时钟,2、3、4 号站锁西向时钟,当 1 号与4 号站断纤时,对于时钟应该没有影响,还应该是 1 号站锁定外时钟,2、3、4号站锁西向时钟。由于指针调整只有 1 号站到 4 号站的业务有指针调整,而且断纤之前没有指针调整,判断问题肯定出在 4 号站和 3 号站,查看 4 号站的时钟配置,发现 4 号站的时钟板当前同步源跟踪模式为自由振荡,3 号站跟踪西向时钟,但是它的时钟板的 S1 字节同步质量信息为不可用,查看 2 号站的时钟配置,锁定西向线路时钟,它的 S1 字节同步质量信息为 G.811 时
21、钟信号,1 号站正常锁定外时钟 1,1 号站和 2 号站的时钟都正常,3 号站虽然锁定了西向线路时钟,但是它的 S1 字节同步质量信息为不可用肯定不正确,应该为 G.811 时钟信号,怀疑 3 号站没有启动时钟保护子网,因为 3 号站可以锁定西向线路时钟,却检测不到此时钟信号为 G.811 时钟。查看此环时钟保护子网发现没有 3号站,突然明白因为 3 号站没有启动时钟保护子网,它的东向光板就没有发送有效的 S1 字节,所以 4 号站没有检测到有效的 S1 字节,不跟踪西向线路时钟,且东向线路故障,所以时钟为自由振荡,而在没有断纤时,没有指针调整,是因为 4 号站检测到它的东向线路方向的有效的
22、S1 字节,所以,它实际锁定的是东向线路时钟,在东向断纤时,就变为自由振荡。将 3 号站加入时钟保护子网,4 号站时钟锁定西向线路时钟,指针调整消失。【结论建议】时钟保护子网启动了 S1 字节,光缆线路出现故障时,要查看各个光口是否发送有效的 S1 字节信息。在出现故障时,一定要先根据故障现象、告警信息,仔细分析,准确定位故障点,尽快排除故障。1.2 数据库问题处理【故障现象】本地郊县骨干西环有 2500+、155/622 及 155/622H 混合组网,在日常维护进行网元数据库备份时,发现有两个 Optix155/622 设备的网元数据库备份失败。告警信息:备份这两个网元数据库时,返回 72
23、03 错误(数据库数据区校验错)。用命令行:dbms-compare-all:mdb,drdb;返回,mdb,drdb 比较一致。用命令行:dbms-compare-all:drdb,fdb0/fdb1;返回 drdb 与 fdb0、fdb1 均不一致。【故障分析】数据库 fdb0/fdb1 发生 7203(数据库数据区校验错)错误,造成备份网元数据库时发生错误。【故障处理】:1) 用:dbms-compare-all:mdb,drdb;数据库比较一致,用:dbms-compare-all:drdb,fdb0/fdb1;返回 drdb 与 fdb0、fdb1 均不一致。2) 用:dbms-ba
24、ckup-all:fdb0/fdb1;和:dbms-copy-all:drdb,fdb0/fdb1;备份网元数据库,均返回失败 7203(数据库数据区校验和错)错误。3) 用:dbms-get-pmode;返回数据库可写,且状态为 enable,这是正常状态。4) 用:dbms-clear-flag:fdb0/fdb1;返回正常,重新备份网元数据库,还是失败 7203 错误。5) 用:dbms-delete-all:fdb0/fdb1;返回正常,重新备份网元数据库,还是失败 7203 错误。6) 用:reset;复位主控板后,网元数据库备份正常,且数据库比较一致。【结论建议】在日常维护中,要定
25、期进行网元数据库备份,如果发现网元数据库备份失败,首先用:dbms-get-pmode;看数据库是否可写,如果不可写,修改其属性为可写;如果这时数据库仍备份失败,则删除 fdb0/fdb1 后,复位主控板,然后重新备份数据库即可。1.3 数据业务处理【组网图】【故障现象】METRO3000(OPTIX 2500+)设备通过 ET1 板在 1站点和 2站点之间实现以太网业务透传;业务为 2站点通过 ET1 板带对接一个光纤转换器接一个网吧,然后通过光路上到 1站点的 ET1 板的 CICSO 路由器。通道速率为 100M。开通后网吧反映上网速率太低。告警信息通过:per-get-ethcurda
26、ta:4,1,prdcur,perexall; ETH PER CURRENT 命令检查性能,发现在 2站的接入侧有明显的 CRC 错报文,超长错误,超短错误报文,且错误报文的字节数与正确报文的字节数基本差不多,可见错误报文已经到达了极大的影响业务的地步。但我们的设备收到多少正确的报文基本上都照常转发到了对端,而对端(1站接入侧)基本上没有收到错误报文,也没有任何异常。【故障原因】问题的可能原因可以定位在我们的设备在 2站接入侧与光纤转换器对接时有问题,或者是两端的端口模式不正确,或者是网线等接入设备有问题。【故障处理】在 2站接入侧发现端口是自协商状态,传输设备的协商时间和光纤转发器的的协商
27、时间不是很一致,当传输设备已经开始转发报文时,光纤转发器的端口指示灯还显示红色(应该是表示端口状态没有协商好) ,一段时间后恢复绿色,而传输设备和仪表链接协商时没有这个问题。这表明端口模式上存在问题。在对端口模式更正后割接上了正常的业务,开始观察测试,业务单板无异常告警。【总结建议】结论为:端口工作模式没有协商正确的问题。后类似问题的处理措施:1) 对于传输设备和其他设备对接时,首先要搞清楚对接设备的端口工作模式,对端是自协商我们也要设置为自协商,对端是 100MFULL,我们的设备也要设置为 100MFUll。2) 如果无法预先知道对端设备的工作模式,可以先将传输设备设置为自协商,然后查询端
28、口实际工作模式,则可以正常业务。 以上是我维护华为设备的一点体会和处理故障的一些方法,供大家参考。传输网络的维护是一项长期而艰巨的工作,随着联通各项综合业务的飞速发展,传输网络平台将越来越大,涵盖面也将越来越广,维护人员需要在维护过程中不断总结经验和教训。不断完善自我,提高自身素质,加强责任心,才能在传输网络的维护过程中得心应手。【王燕滨简介】王燕滨为中国联通邯郸分公司传输维护骨干,2001 年与 5 月开始做华为传输设备的工程和维护工作,主要维护华为传输产品 Optix155/622Optix155 。技术 上理解深刻,技术水平较高,作为邯郸联通的传输工程和维护骨干,王燕滨在传输本地网五期、
29、C 网一期,C 网二期工程施工中,一直积极参与设备的安装和改造,在实际工程中,积累了丰富的工程经验,为其尽快成长为维护骨干创造了条件,2002 年 9 月参加华为公司 A 级培训,在实践期间负责 C 网二期本地传输工程、优秀的素质和高效的责任心,良好的技术水平为其承担复杂的网络改造提供必要的条件,同时善于总结工程和维护,在 2003 年 3 月 北联通和华为 石家庄办事处共同举行的华为传输设备技术大比武中,他带领邯郸分公司取得了第一名的好成绩。巧用隔离法进行故障分析和处理中国联通广西分公司 苏智铭在实际的维护工作中,我们经常会遇到和处理各种各样的故障,而我们在分析、处理一些相似或类似的故障时,
30、可以有意识的对其进行总结、归纳,形成一定的维护经验和故障的处理方法。从而有利于以后的维护工作的开展进行,而且对同事、同行们也有一定的帮助。我通过多年的维护实践,总结出了一个有效的故障分析和处理的方法隔离法。隔离法,顾名思义就是将受怀疑的故障点、故障板块等隔离于系统或网络之外,然后通过观察对故障点予以确定或排除的一种方法。在实际情况中,我们可以通过各种可能的方法来实现“隔离” 。比如,对于支路的告警,我们可以通过把数据由上下业务更改为穿通,就可以很好的把该支路板隔离在外,方便我们的分析;在 PP 通道保护环中,对于一个站,它有四种路径可以选择,将要隔离的光纤或光口对应的尾纤拔掉或关闭激光器,就可
31、将其隔离在网络外;对于交叉板和时钟板等有主备板的,我们可以先通过主备板倒换来隔离受怀疑的故障板;事实上,换板也可以理解为一种终极的隔离法,通过换板将受怀疑的板件隔离于系统或网络之外,这也是最不得已的一种做法,因为它会使同一块板上的在用业务受到连带影响。如此种种,我们可以通过许多行之有效的隔离手段来进行故障的分析和处理。下面,我就隔离法在维护工作中的实际应用做一具体讲解。大家知道,在华为 OptiX 系列光传输设备里,对告警故障的处理都是先由高阶再到低阶,因为高阶告警往往带有低阶告警的产生,而这回我却遇到了一次特殊的只有低阶告警,没有高阶告警,而故障点却不在低阶部分的故障。某本地网有一个 622
32、M 的单向双纤通道保护环,集中型业务。有一天,用户反映环中 A 站 1-PD1 的第12 个 2M 有数据越限告警。具体内容为低阶通道误码和远端低阶通道误码,背景误码块等低阶告警,我经过告警查询和历史告警浏览都没有发现高阶通道的告警,根据以往的经验,一般都是跟踪匹配字符失配引起的。于是做了相应的调整更改,但故障依旧,用误码仪测还是有帧失步等告警。一个 PD1 板开通了 31个 2M,却只有一个 2M 有问题很是少见。于是怀疑支路板有问题。但那个站带有很多重要的基站和数据业务,而且距离中心站有 260 多公里,换板不是那么轻易的,为了避免不必要的损失和做无用功,就需要我们把故障定位准确。于是我静
33、下心来,仔细思考各种可能的原因,然后想办法一个一个去排除、去确定,我把自己的思路理好后,经请示领导,便开始着手实施我的排障计划。首选的目标就是 A 站的 1-PD1 支路板,我先在中心站的相应端口挂上误码仪,在线状态下有对告和帧失步告警,于是我把 A 站 1-PD1 板的原第 12 口的上下业务做成穿通,那么该业务的时隙就不通过该站的支路板而在环上形成一个回路,即由中心站的东向发出经各站穿通后绕环一周又从中心站的西向下来,实质上就相当于把受怀疑的远端站的 PD1 板隔离开来进行分析。 如果故障是在该支路板上的话,那么此时误码仪的告警就会消失。遗憾的是,我们发现误码仪上的告警依旧存在没有任何变化
34、,这说明故障不在远端的支路板上。那会不会是在近端的支路板上呢?于是我又做了以下操作,把在测端口的时隙和一个好的端口(当然是没有在用的)的时隙进行了交叉对调,即时隙1 对端口 2,而时隙 2 对端口 1,再进行测试。此时奇怪的现象发生了,原来有告警的端口没有告警了,而原来没有告警的端口却有告警了。经过多次实验,发现告警总是跟着时隙走的,该时隙 3-60 配到哪里,哪里就有相应的告警出现。问题进一步明朗化了,看来故障并不在支路板上。经过思考后,我决定顺着时隙往上查,支路板再往上就是交叉板了。幸运的是,因为该环业务的重要性,站上均配了两块交叉板:一主一备。于是我通过操作把业务切换到备板,可是我把远、
35、近端站的 4种组合都试过以后,告警依旧,没有一次消失的。如此看来,问题也不在交叉板上。那就继续往上查,自然就怀疑起了线路板。这是一个单向双纤通道保护环,每个站有一东一西两块 SL4 线路板。也就是说环上有两条通道可用,一主一备都是成环,难道是在用的主环有问题?于是我决定进行各种倒换试验(此时已是凌晨 4 点多了) 。我先是把中心站的东向“发”光纤拔掉,那么环上除了中心站外的其他站均发生了 PS 倒换(A 站也不例外) ,均由“西收”倒换成了“东收” ,而中心站则为“西发西收” 。真是太棒了,告警居然消失了,于是我又把中心站的“东发”给接上。10 分钟后,业务倒换回主用通道上,和我想的一样告警又
36、出现了,和先前一模一样。此时,我已经很有把握确定故障出在那了。真没想到,我倒换实验的第一步就找到了问题之所在。尽管如此,为了排除可能存在的隐患和可能的其他原因,同时也是为了进一步证实我认为的故障点。我还是把剩余的几种倒换组合也都一一进行了试验。实践证明故障点就出在中心站东向线路板的“发”口上,当然也有可能是在 A 站的西向线路板上。但因为在中心站用误码仪测试时,告警里有“对告”一项,所以我更偏向于把故障点定位在中心站上。于是更换中心站的东向线路板,故障排除,在经过一系列的测试正常后,总算圆满解决了这次特殊的告警出在低阶而问题却在高阶的故障。事实证明,隔离法是一种简单、方便、有效的故障分析和处理
37、的方法,只要我们将其使用好了,对我们的维护工作有着很大的帮助,有时甚至可以起到事半功倍的作用。【苏智铭简介】该同志自 1999 年加入联通公司以来,先后参加了 G 网的 2、3、4、5 期和 C 网 1、2 期的工程建设和验收等工作,在南宁分公司期间,还作为局方代表积极参与了南宁城域网和本地网的建设。承担了自工程开工以来,网内近 100 端华为光端机和一、二干的朗讯、阿尔卡等传输设备的维护任务,在故障处理、升级扩容、割接调度和网络管理方面锻炼出了较强的工作能力和丰富的维护经验,很快成为公司的维护骨干。2001 年 12 月参加了华为公司的传输 A 培,技术水平和现场工作能力更是得到了极大的提高
38、,对华为的光传输设备和 SDH 原理有了更深入的理解和掌握。在公司里,通过讲课和技术交流等形式将所学的知识毫无保留的传授给同事们,同时,还结合工作实践和维护经验,给华为公司的传输产品提出了有益的建议,并被评为“优”级。该同志所写的维护心得华为传输设备辅助功能的使用也被华为公司收录于2002 年优秀维护人员文集里。2000 年苏智铭所在的维护小组荣获了“中国联通广西分公司先进集体”的称号,本人也于 2001 年和 2002 年连年被评为“先进个人” ,工作能力和技术水平都得到了同事们的肯定和领导的表扬。华为 Optix 系列传输设备维护心得中国联通黑龙江双鸭山分公司 史克虎参加工作以来,我一直从
39、事传输方面的工作,接触的传输设备很多,但给我印象最深的还是华为公司的 SDH 系列传输设备。该系列设备的许多特点:交叉实现业务的广播功能、灵活多样的配置、可靠的网同步特性、完备的接口、全中文界面的网管系统,等等,都给我留下了深刻的印象。目前,我公司以华为公司的传输设备,组成传输骨干网络。华为 SDH 系统传输设备,整体来说性能稳定,操作简单,易于维护。下面,我谨从实践中经历过的几次案例,谈一下我的维护心得。案例一:支路板未插好导致告警异常现象描述随着业务的发展,网元 A 的支路端口无法满足业务需要,急需扩容,网元 A 采用华为公司Optix155/622H 设备,支路板原为 SP1S,将支路板
40、扩容为 SP1D 的过程中,下发配置文件时很顺利,下发完毕,发现该网元与对端站的业务不通,并出现异常告警。网元 A 单板配置如下:3-sp1d,9-x42,11-oi2s,12-oi2s,15-stg ,17-scc,18-ohp2。 告警信息用命令行:alm-get-curdata:0,0 查询设备 A 的告警,反馈信息如下: ALM SUMMARY NUM BID EID SEVE STATE START-TIME END-TIME PARAS 7724 3 T_LOTC minor start 2003-6-2 22:10:8 None 0x01ffff03 7725 3 T_LOTC
41、minor start 2003-6-2 22:10:8 None 0x02ffff03 7730 3 LPRDI minor start 2003-6-2 22:10:11 None 0x01ffff03 7731 3 LPRDI minor start 2003-6-2 22:10:11 None 0x02ffff03 7734 3 T_DLOS minor start 2003-6-2 22:11:38 None 0x01ffff03 7735 3 T_DLOS minor start 2003-6-2 22:11:38 None 0x02ffff03 Total records :6
42、对端站的对应业务通道有 TU-AIS 告警。原因分析根据设备的告警信息进行分析,对端站收到 TU-AIS,发给本站一个对告,本站产生 LPRDI 告警,表明本站与对端站的业务不通。由于只修改了本站数据,所以该告警产生的的原因应该在本站。可能是本站的配置文件错,导致业务不通。T-LOTC(2M 接口发送时钟丢失)产生的可能原因,为单板自身故障,可能是新更换的 SP1D 单板有问题。可通过更换单板的方法定位故障点。处理过程1) 检查命令行文件,确认对应业务时隙无误,重新下发命令行,告警依旧存在。2) 将支路板恢复原单板,并恢复原配置数据,告警信息正常。3) 重新将 SP1D 板插入,下发配置文件,
43、发现异常告警消失,设备恢复正常运行。由此可知,新的配置文件没有问题,SP1D 板也没有问题,问题出在单板操作上,由于单板拔插时操作不当,造成支路板与母板间的通信异常,导致出现异常告警。案例二:本地网环一 TU 指针调整问题的分析处理过程现象描述环一的部分业务通道存在 TU 指针调整的问题,该传输系统的配置为二纤单向通道环,业务集中型,网元 1 为中心网元,其它各网元都与该网元有上下业务(简图如下)。网元 2 与中心网元的业务通道没有TU 指针调整性能事件,网元 4、5、6 与中心网元的业务通道有 TU 指针调整性能事件,且随着时间的积累,性能值不断增加。42A-REG31B-REG原因分析该传
44、输系统中,时钟组网方式如下:网元 1 的时钟模式为自由振荡,其它网元的时钟跟踪该网元的时钟。该系统中的两端光中继设备较为特殊。A-REG 设备本身为另一传输系统新建 622 环的一 155/622 网元,其单板配置如下:1-PL1,9-GTC,11-SL4,12-SL4,13-SL1,14-SL1,15-STG,17-SCC,18-OHP2,其中 11、12 板位的 SL1 板用于环一的 REG。B-REG 设备本身为传输本地网环二的一 155622H 网元,其单板配置如下:IU1-OI2S,IU2-OI2S,IU3-OI2D,IU4-PD2S,SCB-SCB 板,其中 IU1、IU2 板位的
45、 OI2S 板用于B-REG。在这种组网情况下,以前配置为:网元 2 跟踪到网元 1 的时钟,网元 4、5、6 跟踪网元 3 的时钟,而网元 3 跟踪的是另一中心网元 M 的时钟,网元 7 跟踪的是另一中心网元 N 的时钟。这样,网元 4、5、6和 1 号网元的时钟不同步,造成网元 1 和网元 4、5、6 之间业务通道的 TU 指针调整事件。处理过程根据分析结果,制定了如下解决方案:将 B-REG 由环二割至环一。该网元单板配置可改为:IU1-OI2S,IU2-OI2S,IU3-SP1S,SCB-SCB 板。将网元 7 在原环二上的业务割至环一。因为网元 7 在原环二的上游和下游站点之间的距离
46、较近,不超过 30 公里,拆除网元 7,不影响原环二系统的运行。这样,网元4、5、6 都跟踪西向线路时钟,与网元 1 时钟同步。该方案实施后,环一 TU 指针调整问题解决,全网设备运行正常。网络如此调整后,还节省一块 OI2D光板和一块 PD2S 支路板,降低了网络运营成本。通过以上几次典型案例的分析处理和日常的维护工作,我对华为公司 Optix 系列传输设备的认识愈来愈深刻,我对传输设备故障处理的步骤和方法有了初步的掌握,积累了一些维护经验。现总结如下:1. 深刻理解维护原则:在例行维护工作中及时发现、解决问题,防患于未然。以上案例中,我们所进行的多是突发性维护,有好多障碍是可以在例行维护中
47、发现的。作为一名好的维护人员,不仅是在问题出现时能迅速的定位、解决问题,而更重要的是在故障产生前,能够通过例行的维护工作及时发现故障隐患,消除故障隐患。2. 例行维护工作要做细。目前的例行维护多限于告警查询,对性能数据查看、保护倒换检查、查询日志记录、各环境变量检查、网元时间检查、网管数据库的备份与转储等项目做得不够。我们曾经在一次查看性能数据时,发现某网元的环境温度达 41 度,数据异常。我们立即赶到该站处理,发现该站空调故障,造成温度过高。例行维护工作必须做细,这对保障网络正常运行非常重要。3. 注意积累经验,努力提高紧急障碍处理能力。作为一名维护人员,应该全面了解传输网1576络的结构,
48、熟悉各类设备的工作原理和障碍定位方法,了解各类告警的含义和处理方法。故障定位的基本步骤和方法在华为资料和华为培训中,都有很好的阐述,但要将这些理论灵活运用到工作实践中,不是件容易的事情。发生障碍后,不可慌乱,保持清醒的头脑,分析出原因后再进行处理。在排除故障的过程中,沉着、冷静,避免误操作导致故障的扩大。认真总结,吸取教训,不断提高处理故障的能力。【史克虎简介】该同志一到联通,就投身到黑龙江联通四、五期工程建设中,先后参加过工程随工、设备安装、工程验收等工作。参加维护工作后,与传输中心的其他同事共同承担起双鸭山联通传输网格的维护任务,并迅速成长为传输专业的技术骨干。对双分传输网的结构、光缆路由、设备状况、各种仪器仪表的使用等都有很好的掌握,为双分传输网络的安全运行做了大量工作。尤其是在 C 网二期工程中,根据网络的实际情况,对原工程设计提出修改方案并付诸实施,降低了工程成本,为公司节约了大量资金。工作过程中,积级总结维护经验,多次在公司网站、华为网站、联通报上发表维护论文。该同志先后参加过华为公司的 SBS155/662 设