1、 程控交换机系统故障应急预案程控交换机系统是公司通信的核心设备,已经形成了以 2#楼机房为核心、3#楼模块局、210 模块局为主体通信格局,3 个局之间光缆组成环网,集中整个公司生产、办公电话,为了保证整个公司通信正常,针对程控交换机系统运行过程中可能出现的问题,特制订本应急预案。一、 应急小组组织机构1、应急工作小组组长: 贺峰、张惠成员: 卢曙光 吕行 张雄 方第群 曾飞 张志 常杰 周奇辉 戴聚平 黄志容2、工作职责:全面负责程控机房运行过程中出现的所有问题,负责应急预案的实施,确保程控交换机系统和有关通信业务正常运行。卢曙光、吕行、张雄:负责程控交换机系统应急维护;各责任区:负责电缆与
2、光缆的应急抢修二、 技术资料二号办公楼程控机房文件柜三、 备品备件二号办公楼程控机房备品备件柜四、 故障现象及应急处理流程OPT81程控交换机由于运行年代已久,故障率高,3 个新建模块局用光缆连接,确保光缆正常;为了保证通信的正常运行,对常见故障与突发故障做一套应急处理方案:1、程控交换机应急预案、交换机中继环路故障的应急处理:在日常维护中,每天对所有的中继环路检测,有无告警信息、环路是否关闭、话务量的程度。如果中继环路告警,电话不能出局,处理方案:a、立即检查环路,判断是局内故障还是局外故障:在局数据不能解决的,将对中继环路进行自环,有两种情况,一是自环后交换机中继环路自检成功,局内没问题,
3、立即与电信联系,协同解决环路故障;b、是自环不成功,将判断为硬件故障,还是局数据问题。如果是硬件故障,将对卡板进行更换,对有故障的卡板贴好标签,送修。恢复中继环路进行检测。如果局数据问题,不能解决,上报综合科,请咨询有关技术人员解决。、交换机电话用户故障的应急处理:日常检点,密切注意程控机房的告警信息。发现哪一机架出现告警,将立即对这机架检查,常见故障有:a、鼓风机单元故障或停止工作;b、用户板 NTRA05AA短路;c、用户框电源板 NT6D41AD故障;d、外围模块控制板 NT8D01BD故障。最常见的是用户板故障,处理方案为:用户板短路造成整框瘫痪,找出有故障的卡板,准备备用板,进行更换
4、,将对故障的用户板作好标签、作好故障登记、送修。预防措施:为了减少用户板的故障,日常注意总配线架的保安单元,及时更换有告警信息的保安单元,以防由于外线的影响烧坏用户板;在雷雨季节,作好接地测试,减少打雷造成的故障;在下一步的维护计划中,将对所有的卡板用专用的程控交换机清洗剂进行清洗,除尘,增长卡板的使用寿命。其次是电源板的故障,电源板出现问题,这一框已经瘫痪,严格按照操作规程,将准备好的备用板进行更换,将故障电源板作好标签,登记故障记录,送修。在 2005的维护记录里,外围框的控制板出现过 2次故障,表现为整框的用户没有信号,在局数据不能解决下,判断为硬件故障,将用备用板更换有故障的控制板,数
5、据打开卡板,检查测试卡板,将对整框的用户测试,看是否已经恢复。鼓风机单元由于长期运转,发出异常的声音,有可能烧坏鼓风机的电机,发现这种故障,要关掉鼓风机,取出鼓风机进行维修。以免由于鼓风机的影响造成整个机架出现故障。、交换机系统应急处理:公司通信的主体设备 OPT81程控交换机,已经运行 14年,于 2001年系统升级,在核心部分,交换机运行基本正常,日常维护与定期检测,主要针对交换机的核心,看双 CP是否正常,午夜例行核心是否自动倒换,两个 CMDU的硬盘是否同步等等来预防交换机核心的突发事故。常见的故障为 I/O接口板 QPC841C烧坏,维护终端不能进入交换机系统。处理方案:将 QPC8
6、41C板的开关拨在“OFF”的位置,严格按操作规程,将连线作好标签,带上防静电手腕,将坏板子拔出。将 QPC841C备用板插入,连好连线,将 QPC841C板的开关拨在“ON”的位置,在话机维护中,话机进入交换机系统,数据打开841板的输出串口。交换机的维护终端恢复正常,进入系统,检测系统。将坏的 QPC841板作好标签,报故障综合科,登记故障处理,送修卡板。核心框的功能卡板,如果出现故障,影响交换机的局部或整个系统,应立即报科领导,一面组织处理:严格按照操作规程更换卡板,卡板的编码要一致,数据恢复系统,如果数据不能恢复,申请系统初始化,恢复整个系统。一旦不能恢复,联系厂家技术支持或来现场指导
7、。一旦交换机核心 CPU或 CMDU驱动器出现故障,整个交换机系统面临瘫痪,应急方案为:迅速报科室领导、部领导、综合科、技术科,组建应急处理组,研究处理方案。、程控交换机电源应急处理:珠江电源系统为 OPT81交换机提供 48v直流电,如果电源系统出现故障,就直接影响程控交换机的正常运行。由于珠江电源已经运行十年,部分器件已经老化,在以往的维护中,整流模块故障较多。日常维护中,特别注意直流电是否正常。目前整流模块有 5块,至少要 4个模块才能正常运行。一旦发现整流模块不正常,立即在电源维护终端将不正常的模块关闭,将模块抽出机架,上报设备管理员,请厂家技术员来维修。一旦只剩下 3个模块在运行,随
8、时准备启动应急电源:关闭珠江电源系统,倒换到北电备用电源系统。综合科应立即组织,进行维护珠江电源。恢复珠江电源系统,将交换机电源再倒换到珠江电源系统来。 2、通信综合管理系统应急处理:通信综合管理系统是公司通信的窗口,包括通信综合管理系统服务器、计费管理、话单备份、话单分拣、号线管理、电子派工系统、话费营收与业务受理。日常维护中,重点检查计费系统是否正常。在以往的维护记录里,突发故障主要是各个子系统,由于计算机的硬件或软件的故障,造成子系统的故障。处理方案为:计算机的故障为硬盘坏、cpu 风扇坏、主板坏、机箱电源坏等等,计算机故障迅速报综合科处理,解决计算机问题。恢复计算机后,将备份的程序重新
9、安装配置,恢复子系统功能。在定期检测中,对服务器的数据每月备份到移动硬盘,一旦服务器出现故障,为了不影响整个系统的运行,立即上报。应急方案:迅速恢复服务器硬件或调用备用机器,组织服务器技术人员,联系软件厂家技术人员,进行远程安装指导,恢复服务器系统,如果不能,请厂家技术员现场安装。目前运行的北京泰思达系统,由于一些功能的不完善,如话费催缴系统与自动停复机系统出现故障,号线系统不完善,一些子系统的功能欠缺等等,针对这套系统存在的诸多问题,需要将通信综合管理系统升级或更换。3、程控交换机处理流程是否是 是否否 否是是 否 否是设备故障通知技术负责人员和班长判断分析故障系统中断 中继环路故障是否电源
10、问题通知有关部门排除故障并报告领导系统是否在自动恢复观察自动恢复结果是否系统恢复成功 技术负责人处理故障并做好记录系统恢复否继续观察系统运行情况并报告领导处理好遗留问题,显示设备运行状态校正系统时间,抢救计费数据,尽快恢复丢失数据做好系统备份分析原因,上报有关主管部门结束与厂家联系,采取紧急措施排除故障维护终端恢复中继环路恢复是否成功与娄底电信机房联系是否电信问题判断中继故障点与电信合作自环测试中级环路排除故障观察中继环路情况做好日常维护登记结束待排除故障4、主干电缆与光缆故障的应急处理预案 主干光、电缆缆故障通知有关部门立即赶扑故障现场向主管领导和技术负责部门汇报通知总调及有关部门检查故障原因 组织有关人员准备抢修故障施工材料工具 车辆等做好抢修准备天灾人祸 施工破坏 人为蓄意破坏检查主干电缆断与否更换或接续主干光、电缆调试相关线路及设备确认故障解除分析故障原因,落实事故责任结束