1、故障处理流程本章描述故障处理的流程和处理步骤。 2.1 故障处理总流程本节描述故障处理的基本流程。 2.2 收集故障信息本节描述收集故障信息的注意事项及途径、故障信息的种类。 2.3 判定故障收集故障信息后,需要对故障现象作出判断,并确定故障的范围和分类。 2.4 定位故障原因定位故障原因是通过一定的方法或手段分析、比较各种可能的故障原因,不断排除非可能因素,最终确定引发故障的具体原因。 2.5 排除故障本节描述故障排除的方法和后续处理。 2.1 故障处理总流程本节描述故障处理的基本流程。故障处理总流程如 图 2-1 所示。图 2-1 故障处理总流程图 2.2 收集故障信息本节描述收集故障信息
2、的注意事项及途径、故障信息的种类。收集故障信息的途径处理故障前,需要通过相关途径收集以下故障信息: 故障的现象。 故障发生的时间、地点、频率。 故障的范围、影响。 故障发生前设备运行状况。 故障发生前对设备进行了哪些操作、操作的结果是什么。 故障发生时设备是否有告警、告警的相关/伴随告警是什么。 故障发生时是否有单板指示灯异常。 故障发生后采取了什么措施、结果是什么。 收集故障信息可以通过以下途径: 询问申告故障的用户/客户中心工作人员,了解具体的故障现象、故障发生时间、地点、频率。 询问设备操作维护人员了解设备日常运行状况、故障现象、故障发生前的操作、故障发生后采取的措施及效果。 观察单板指
3、示灯,观察 LMT 上的告警管理系统以了解设备软、硬件运行状况。 通过业务演示、性能测量、接口信令跟踪等方式了解故障发生的范围和影响。 说明: 应具有收集相关信息的强烈意识,在遇到故障特别是重大故障时,一定要先了解清楚相关情况后再决定下一步的工作,切忌盲目处理。故障信息的种类 告警信息告警信息是指 BSS 告警系统输出的信息,通常以声音、灯光、LED(Light EmittingDiode)显示、屏幕输出等形式提供给维护人员,具有简单明了的特点。查看告警信息是故障分析的主要手段之一。告警信息主要包括故障或异常现象的具体描述、故障发生的原因、故障修复建议等。告警信息涉及硬件、链路、中继、CPU
4、负荷等 BSS 的各个方面,信息量大且全,是进行故障分析和定位的重要依据之一。告警信息主要用于查找故障的具体部位或原因。由于 BSS 告警系统输出的告警信息丰富、全面,因此经常可以用来直接定位故障的原因,或配合其他方法共同定位故障。说明: 告警系统的使用说明请参见 BSC6900 GSM LMT 用户指南 ,每条告警处理的详细操作说明请参见 BSC6900 GSM 告警参考 。 指示灯状态指示灯反映相应单板的工作状况以及电路、链路、光路、节点等的工作状态,是进行故障分析和定位的重要依据之一。指示灯状态主要用于快速查找大致的故障部位或原因,为下一步的处理提供思路。由于指示灯所包含的信息量相对有限
5、,因此经常与告警信息配合使用。以 SCUa 单板为例,SCUa 单板指示灯如 表 2-1 所示。表 2-1 SCUa 单板指示灯说明 指示灯名称 颜色 状态 含义1s 亮,1s 灭 单板正常运行。0.125s 亮,0.125s灭单板处于加载状态。常亮 有电源输入,但单板存在故障。RUN 绿色常灭 无电源输入或单板处于故障状态。常灭 无告警。ALM 红色常亮或闪烁 告警状态,表明在运行中存在故障。常亮 单板处于主用状态。ACT 绿色常灭 单板处于备用状态。常亮 链路处于连接状态。LINK(网口处)绿色常灭 链路处于断开状态。常灭 没有数据传送。ACT(网口处)绿色闪烁 有数据传送。说明: 各单板
6、指示灯的状态说明,请参见 BSC6900 GSM 硬件描述 。维护人员平时应加强对单板指示灯含义的学习,以提高故障情况下的快速反应能力。 业务拨测业务拨测常用来判断 BSS 业务是否正常,并通过拨测收集故障详细信息。包括:终端信令、网络侧信令、详细故障现象描述。 仪器测量运用仪器、仪表进行故障分析与定位,以直观、量化的数据直接反映故障的根因,是 BSS 故障处理常用的技术手段,在电源测试、信令分析、波形分析、误码检测等方面有着广泛的应用。某地掉话率较高,故障处理过程如下:o 用信令分析仪截取一些掉话的信令。 o 分析该信令,发现掉话原因主要由于 TA(Timing Advance)过大所导致,
7、TA 值接近 63。 o 更改数据配置,将小区半径缩小。 o 修改数据配置后,掉话率降低。 说明: 关于仪器的使用方法,维护人员可参考相关仪器的使用说明书。 话务统计话务统计是分析业务类故障(掉话类、切换类等)有力工具,能够及时地找出引起业务类故障的主要因素并加以有效地防范。话务统计分析经常与信令跟踪、信令分析等配合使用,在查找掉话率过高、切换成功率低、呼叫异常等业务类故障方面有着重要的作用。说明: 话务统计的使用说明请参见 BSC6900 GSM LMT 用户指南 ,每个指标的含义请参见 BSC6900 GSM 性能指标参考 。 消息跟踪消息跟踪在分析用户呼叫接续、局间信令配合等过程的失败原
8、因方面有着重要的应用,利用跟踪的结果,经常可以直接得到呼叫失败的原因,为后续分析提供宝贵的思路。说明: 消息跟踪的使用说明请参见 BSC6900 GSM LMT 用户指南 。2.3 判定故障收集故障信息后,需要对故障现象作出判断,并确定故障的范围和分类。排除故障之前,维护人员根据收集的故障详细信息,对故障范围和类型进行判断。如果无从下手,请联系华为客户服务中心。说明: 当发生严重故障、事故时,请联系华为客户服务中心。2.3.1 故障范围分类本节描述 GBSS 故障处理指南处理的故障范围。 CS 话音类故障 CS 业务类故障 o 切换类故障 o 掉话类故障 o 接入类故障 PS 业务类故障 o
9、PS 指标类故障 o PS 信道类故障 o 小区无 PS 业务类故障 设备类故障 o IP 传输类故障 o 干扰类故障 o 主分集接收通道故障 o 无话务类故障 说明: 根据不同的故障现象进行故障判断,确定故障类别。各故障类别之间并不是割裂的,例如掉话类故障的原因可能是切换不及时导致的。本文在叙述此类情况时,直接链接到切换类故障的相应处理中,在掉话类故障处理中不再予以说明。2.3.2 界定故障范围的方法本节描述界定故障范围的方法。 观察法观察法是我们发现、界定设备故障范围的常用方法。观察的内容主要有设备告警、指示灯显示、LMT 面板状态。 TOP 最值分析法该方法主要用于性能指标劣化场景的故障
10、范围界定。通过小区、载频对象指标的最值排序,确认劣化的性能指标是全局问题还是局部问题,从而做到抓大放小,最终解决问题。 具体案例请参见 4 切换类故障。 环回法环回法是界定故障网元范围的重要方法;环回法适用于传输类、链路类、语音类等;环回从实现分硬件环回、软件环回两种。具体案例请参见3.1.2 外部语音环回。另外,通过环回判断传输设备、传输信道、业务状况、信令配合等情况是否正常,以确定相关硬件设备的状况、软件参数设置是否正常。环回是定位传输问题、中继参数设置是否正确等的最常用方法之一。在新建站点和中继扩容过程中,BSS 中继自环也经常用于判断中继参数设置是否正确、信令链路数据设置是否正确。说明
11、: 在定位与传输相关的故障时,环回是一种常用的方法。 排除法在软件方面,排除法顾名思义就是把某一可疑功能、特性关闭掉,排除该功能特性对问题产生的影响。如果关闭了该功能(比如:射频调频),问题解决,那就是该功能引起的问题,否则该问题与此功能无关。在硬件方面,如果怀疑单板方面故障,则可以直接替换单板排除硬件问题。比如:我们在处理小区干扰问题时,如果怀疑小区干扰为同邻频干扰,则可以在条件允许情况下,更新小区频点为干净频点(比如:E 频段),看干扰问题是否消失。 找规律法现网的问题多种多样,涉及因素广。对于此类问题,需要首要找出现象背后的规律,从而缩小问题范围,比如关注如下几点:1. 是否同一单板存在
12、问题。 2. 是否是集中在某一块 DSP 上。 3. 是否同一传输通道存在问题。 4. 是否同一载波存在问题。 5. 是否某类手机存在问题。 6. 是否某类信道存在问题。 7. 是否均开启了某类特性,比如:Flex TSC、下行功控、主 B 降功耗等。 8. 凡是出现了告警,要观察告警是单个还是多个类似的告警。 比如:小区退服告警,我们需要关注此类退服是单小区退服,还是多个小区退服。 o 如果是单个小区退服且本站点下的其它小区没有退服,则可能是该小区载频、配置存在问题; o 如果是多小区退服,需要判断这些小区有什么规律,处于同一个基站还是多站点。 若处于同一个基站,则查看是否有传输类告警(LA
13、PD 断链告警、OML 故障告警、E1 告警等)。如果有,则可能是站点停电或者传输故障; 如果多站点小区退服,则需要确认是否属于同一个片区(可能片区停电或者挖断光纤)。 对比/互换对比是指将故障的部件或现象与正常的部件或现象进行比较分析,查出不同点,找出问 题的所在。互换是指将处于正常状态的部件与可能故障的部件对调,比较对调前后二者运行状况的变化,以此判断故障的范围或部位。o 对比一般适用于故障范围单一的场合。 o 互换一般适用于故障范围复杂的场合,常见的互换有如下几种: 1. 载频互换、单板互换 2. 传输互换 3. 天馈互换 4. 频点互换 比如:同站的一个小区干扰很大,而别的小区正常。在
14、排查各种连线都无法解决的情况下,可对调同站正常小区与异常小区的天馈系统,看干扰是否随天馈走,如果是则问题出在天馈系统。参见 12.4 互调干扰问题处理中的典型案例。2.4 定位故障原因定位故障原因是通过一定的方法或手段分析、比较各种可能的故障原因,不断排除非可能因素,最终确定引发故障的具体原因。定位故障原因主要分为以下两类: 定位业务类故障o 对于语音类故障和分组业务类故障,首先依次检查 Abis、Um 等接口,逐段定位,根据接口现象判断是否为 BSS 故障。如果是 BSS内部问题,再继续定位。 o 对于切换类和接入类等故障,启动相关性能统计、信令跟踪,对照协议流程,判断故障点,逐个排查定位。
15、 定位功能子系统类故障时钟类、接口链路类和设备类的故障种类虽多,但是故障范围较窄,一般伴随相关的告警提示。因此该类故障的原因相对简单,同时系统会有单板指示灯异常、告警和错误提示等信息。2.5 排除故障本节描述故障排除的方法和后续处理。2.5.1 概述排除故障是指采取适当的措施或步骤清除故障、恢复系统的过程,如检修线路、更换单板、修改配置数据、倒换单板、复位单板等。排除故障应注意以下几点: 根据不同的故障按照不同的操作规程操作,排除故障。 排除故障之后要进行检测,以确保故障真正被排除。 排除故障后应回顾故障处理全过程,记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。 说
16、明: 当发生严重故障、事故时,请联系华为客户服务中心。2.5.2 排除故障的方法本节描述故障排除的方法。 隔离法隔离法就是将单个故障点从正常运行的业务单元中屏蔽掉,避免故障单元对正常业务的影响。比较常见的问题比如 DPU 单板上的 DSP 故障,而用户短时间不便于替换整个单板,则可执行 MML 命令 INH DSP 隔离该 DSP 芯片。请参见 7.4 杂音故障处理中的典型案例。 倒换/复位法倒换是将业务从主用设备上全部转移到备用设备上,对比倒换后系统的运行状况,以确定主用设备是否异常。复位是指对设备的部分或全部进行手动重启的操作,复位主要用于排除软件运行异常。倒换/复位只能作为一种临时应急措
17、施,请谨慎使用,原因如下:o 相比其他方法而言,倒换/复位只能作为定位故障的一种辅助手段。o 由于软件运行的随机性,倒换/复位后故障现象一般难以在短期内重现,从而容易掩盖故障的本质,给设备的安全、稳定运行带来隐患。 复位操作通常会导致系统业务的中断,甚至可能由于操作不慎而导致系统瘫痪,给 BSS 的日常运营带来严重的负面影响。例如:A 接口全断、部分中断场景,对于此类严重问题,立即恢复业务为第一要务,则可按照如下步骤排除、恢复问题:3. 排查 A 口传输(看 BSC 是否有传输告警) 4. 复位 A 口对端 MSC 接口板 5. 倒换相应 A 接口板 6. 如果分离模式,倒换相应 BM 框和
18、TC 框的 Ater 接口板 7. 倒换 SS7 号所在 XPU 单板 8. 在 BM 框 Ater 接口板对应端口做本地环回,看 MTP2 是否可以正常收到自己发出的消息 替换法在现网运维中,替换法也是一种常用方法。在确保故障常用排查手段无效情况下,可尝试问题单板、线缆、天馈等设备的替换。说明: 1. 替换法虽对技能要求不高,简单实用,但如果使用不当,会造成不必要的返修件。因此在替换时要坚守一个原则“单板替换后,如果故障现象仍不消失时,最好把原单板重新插回去,不要直接作为返修件维修”。 2. 如果现网条件不允许,没有可替换的单板,则可以尝试单板的插拔(拔出后再插入)。 2.5.3 后续处理本节描述故障解决后的处理方法。