1、浅析网络故障管理博影摘要:故障管理是计算机网络的管理最基本、最重要的功能。文中针对网络故障管理进行研究,并提出了网络故障的检查方法和一般解决方案,为网络故障的进一步发展奠定了基础。关键词:网络管理,故障管理,故障检查一个网络管理系统有五大功能域:故障管理、配置管理、性能管理、计费管理和安全管理其中,故障管理是最基本,也是最重要的功能。目的是保证网络能够连续可靠地运行。如果网络服务意外中止,将会对生产、生活造成很大影响,这就需要一套科学的故障管理策略,及时发现故障、排除故障。随着信息检索、数据交换、多媒体信息传输等各种各样日益增长的网络应用,网络管理越发显得重要。如何提高网络的效率、安全性和稳定
2、性,如何应对各类突发的网络通信事件,如何及时有效处理网络故障,如何有效地制定好网络发展规划?诸多问题已成为困扰网络管理的一大难题。网络规模越大,网络结构越复杂,网络故障的预测、分析和处理越是必不可缺的。有效的网络故障管理已成为企业级网络运维中一项关键性的工作。1、 故障管理概述故障管理是网络管理中最基本的功能之一。用户都希望有一个可靠的计算机网络。当网络中某个组成失效时,网络管理器必须迅速查找到故障并及时排除。通常不大可能迅速隔离某个故障,因为网络故障的产生原因往往相当复杂,特别是当故障是由多个网络组成共同引起的。在此情况下,一般先将网络修复,然后再分析网络故障的原因。分析故障原因对于防止类似
3、故障的再发生相当重要。网络故障管理包括故障检测、隔离和纠正三方面,应包括以下典型功能:故障监测:主动探测或被动接收网络上的各种事件信息,并识别出其中与网络和系统故障相关的内容,对其中的关键部分保持跟踪,生成网络故障事件记录。 故障报警:接收故障监测模块传来的报警信息,根据报警策略驱动不同的报警程序,以报警窗口振铃(通知一线网络管理人员)或电子邮件( 通知决策管理人员)发出网络严重故障警报。故障信息管理:依靠对事件记录的分析,定义网络故障并生成故障卡片,记录排除故障的步骤和与故障相关的值班员日志,构造排错行动记录,将事件-故障-日志构成逻辑上相互关联的整体,以反映故障产生、变化、消除的整个过程的
4、各个方面。排错支持工具:向管理人员提供一系列的实时检测工具,对被管设备的状况进行测试并记录下测试结果以供技术人员分析和排错;根据已有的徘错经验和管理员对故障状态的描述给出对徘错行动的提示。检索/分析故障信息:浏阅并且以关键字检索查询故障管理系统中所有的数据库记录,定期收集故障记录数据,在此基础上给出被管网络系统、被管线路设备的可靠性参数。对网络故障的检测依据对网络组成部件状态的监测。不严重的简单故障通常被记录在 错误日志中,并不作特别处理 ;而严重一些的故障则需要通知网络管理器,即所谓的“警报“ 。一般网络管理器应根据有关信息对警报进行处理,排除故障。当故障比较复杂时,网络管理 器应能执行一些
5、诊断测试来辨别故障原因。2、 故障管理的类型故障类型指的是具有某种特征的故障的分类。通常我们可以根据故障发生来源的不同,将它们划分为两大类,即硬故障(Hard errors)和软故障(Soft errors)。 硬故障是指网络的硬件设备在工作过程中产生的各种错误。这些错误与该设备的作用有密切关系,网络系统的复杂性也正是由于设备的多样性而体现出来的。根据网络设备的作用,我们也可以将故障简单分为以下三类: 连接设备故障 这种故障的现象主要是网络的物理连接出现问题,也可以称为通路故障。造成故障的原因可能是电缆线断开、收发器断开或不能正常工作以及其它连接设备间的接口出问题等等。根据这类故障的来源不同,
6、我们又可以将该类型的故障细分为线路故障、网络接口故障、收发器故障、路由器故障等等,该类故障是故障管理的最主要对象。共享设备故障 这种故障的表现是用于资源共享的设备出现问题,不能提供或享受所需的服务。同样,该类型的故障也可以细分为服务器故障(打印机故障、文件服务器故障等)、工作站故障等等。其它设备故障。包括电源故障、监控器故障、测试仪故障、分析仪故障等等。软故障是指网络系统软件运行出错。软故障的发现和处理是在管理过程中逐渐被人们所认识的,因为软件属于一种无形的东西,问题的表现不如硬件那么直观。从这个意义上看,软故障的识别和诊断更加困难。故障管理中所处理的软故障主要针对与网络通讯和服务有关的系统软
7、件,它可以直接根据网络软件来划分,包括通讯协议软件故障、网络文件系统(FNS)故障、文件传输软件故障、域名服务系统(DNS )等等,其中通讯协议软件故障是系统研究的重点。这种错误通常是在协议软件运行时遇到某个异常条件(如缓冲队列满)或协议软件本身未提供可靠机制而导致传输失败,报文丢失。 故障类型并不是一成不变的,随着网络在复杂性和规模上提高,网络故障管理的要求也在不断增加。新的技术、设备的应用使故障的类型、故障原因、故障源等各方面都发生了变化,这就要求故障管理系统必须增加新的内容。 3、 故障管理的功能以及影响因素故障管理的根本目标在于排除网络中出现的各种故障,达到这一目标要求系统至少必须具备
8、检测、隔离和纠正故障的能力。 故障检测(detection) 是指对系统的性能和状态进行检查和测试,根据结果和一定的识别规则判断系统是否故障。故障检测要求管理系统监视网络的工作,考查网络的状态及其变化,一旦发现系统出现故障马上进行报警。 故障隔离(isolation)是指确定故障发生的位置,通俗地说就是指出谁发生了故障,如哪个子网、哪个设备或者设备的哪个部件,对于软故障则指明哪个系统出了问题。由于网络是一个复杂的系统,故障类型、原因、故障源多种多样,而且不同故障的表现可能完全相同,这就导致了故障隔离的复杂性。隔离系统应当尽可能地缩小故障源的范围。 故障纠正(correction)是指纠正所发生
9、的错误,恢复系统的正常工作。故障纠正建立在前两者的基础之上,目前所采取的手段除了进行硬件维修、系统重启、一定程度的恢复外,还包括一些非技术性的活动,如人员的使用和技术培训以及设备生产厂商的支持等。 与网络管理一样,故障管理也必须考虑三方面的因素:过程、设备和工具、人员。成功的故障管理策略是这三者的完整结合,而不仅仅是其中的某一个方面。 过程主要指为实现故障管理功能而进行的操作,下一节介绍的内容就属于故障管理的过程。了解管理的一般过程是开发一个实用的故障管理系统的基础。 设备和工具指的是进行故障管理的软硬件工具,包括故障检测设备、维修设备、实用的故障管理系统等。设备和工具在故障管理中起着非常重要
10、的作用,它可以帮助管理员和工程师实施管理功能,排除故障,保障网络系统正常运转。下面介绍的就是几种专用的物理设备: 时间域反射测量仪(TDR)。通过显示物理介质传输信号的波形表明设备或链路是否故障。 网络监视器。监视网络上各结点的状态,得到网络的各种统计数字,以确定是否故障。 网络分析仪。实时分析结点的收发报文,帮助管理者跟踪和隔离故障。管理人员在故障管理中的任务主要是维护管理系统和工具的运行,并在它们的帮助下完成故障排除和系统恢复工作。4、 网络故障的检查方法网络故障的两种基本检查方法包括分层检查和分段检查。采用这样的检查办法可以节约检查时间,快速确定故障位置,有利于对故障的分析和判断。1、
11、分层检查OSI7 层参考模型包括 7 个层次,如图 1 所示。每个层次完成一部分的功能,相邻层次之间相互独立,两台计算机系统同等层次之间的操作相对透明。图 1:OSI 网络结构的 7 层模型分层检查包括应用程序层(应用层、表示层、会话层)和数据传输层(传输层、网络层、数据链路层、物理层)的检查。图 2:分层检查步骤具体的分析按“物理层数据链路层 网络层 传输层 上层应用”的次序分析问题。分层检查的步骤如图 2 所示2、 分段检查分段检查包括用户端、接入设备、主干交换设备、中继设备等之间的链路连通及相应端口的状态。链路连通包括:物理线路的介质类型,物理线路的连通,物理线路的质量(线路的距离、衰耗
12、、终端设备的电气特性等) ,物理线路的最大数据承载能力,收发线路的对应等。相应端口的状态包括:两端设备对应的端口类型的统一、速率的匹配、双工设置、收/ 发时钟的时钟源,数据收/ 发的线路接通,数据流控制和拥塞控制等。分析具体就是:按“数据终端设备网络接入设备 网络主干设备网络中继设备 网络主干设备 网络接入设备数据终端设备”的次序分析问题。分段检查的步骤如图 3 所示。图 3:分段检查步骤5、 网络故障的解决步骤由于网络故障的种类多,原因复杂,解决方法也很多,本文章从以下几个方面提出建议。排查网络故障,确定故障原因解决网络故障的第一步就是要合理地、逐步排除网络故障,最终确定故障原因,发现症结所
13、在,方能对症下药。首先应搜集当前故障的现象与症状,从而初步分析潜在原因,缩小排查范围。其次在确定的排查范围内继续排查,具体思路应是由服务器到工作站,由外部到内部,由软件到硬件。由服务器到工作站就是出现工作站不能入网的情况下,先确定服务器是否有问题,如死机、无法启动,登录和口令等问题,然后再从工作站进一步分析间题。外部到内部就是当有工作站网络功能失灵时,先检查其外部直接可看到的设备情况,如电缆有否缠绕,路由器有没有故障、网线接头?接触是否良好。如果没有查清外围设备情况,就打开机器检查内部,不仅事倍功半,而且可能导致新的故障发生。软件到硬件就是网络出故障后,先从操作系统,驱动程序,配置上排查原因,
14、然后再检查硬件是否损坏。根据故障原因,制定测试方案在进行网络故障排查后,应根据最可能的故障原因,建立相应的诊断测试方案。在具体落实诊断测试方案时,应严格按照方案的相关措施进行故障排查,直到故障症状消失。在故障得到解决后,还应测试网络的相关效果,确保在排除网络故障的同时不至于引发另一故障隐患。由于网络故障的原因很多,为了避免在排除网络故障时引起其他故障,应在故障排查的过程中应做好故障排查记录,这样可以很容易恢复到故障的原始状态,如果不行,便可再进行其他复杂的可能性测试。此外,还应建立健全事件管理体系,将每次故障登记在册,并包含与问题和隔离解决步骤相关的完整记录,以便为今后的网络管理工作提供经验和
15、资料。总的来说,网络故障解决步骤可以用图 4 来表示。图 4:网络故障解决步骤最后,加强网络维护,防范网络故障虽然网络故障的出现是不可避免的,但如果能在日常的使用中加强网络维护,就能做到防患于未然,减少网络故障的发生机率。一是硬件维护。检测计算机网线、网卡、路由器等物理故障,测试硬盘、内存等是否能够正常运行,对临近损坏的硬件要及时进行更换。二是软件维护。首先检查计算机的网络设置,如服务器、网络服务、协议等是否正常;其次应检查交换器、路由器等网络设备的运行善及系统配置;最后则应检测网络系统的安全性,如防毒软件、防火墙的定期升级与维护,及时安装系统漏洞,检测是否有非法用户入网入侵行为,以及对联网计
16、算机上的数据库做安全加密处理并对加密方式和手段进行定期更新,以保障数据的安全性。6、 总结计算机网络的应用越来越广泛,在使用过程中难免出现各种各样的故障,再有网络管理和故障分析技术牵涉面广,技术分析复杂,而且在当今“网络就是计算机”的时代更加显示出它的重要性。如何及时地发现网络运行中存在的问题和隐患,有效地做好计算机网络的日常维护工作,确保其安全稳定地运行,是一项非常重要的工作。文章认为,当网络故障出现时,除通过“排查网络故障,确定故障原因”与“根据故障原因,制定测试方案”准确排除网络故障之外,还应“加强网络维护,防范网络故障”来防止可能出现的故障,从而尽量保障网络能够始终高效地运行。参考文献1 赵志囡等.计算机网络中的服务M. 现代情报.2006. (11) .2 杨家海等.网络管理原理与实现技术 M.北京:清华大学出版社.2000. 3 武波,马玉祥.专家系统 (修订版)M.北京:北京理工大学出版社, 2001.4 Greg Tomsho.网络维护和故障诊断指南M.北京:清华大学出版社,2003.5 Robert J.shimonski Tomsho.网络优化及故障检修M.北京:电子工业版社,2004.