1、第10章 网络故障,10.1 网络故障成因 10.2 网络故障分类 10.3 网络故障的排除方法,当今的网络互连环境是复杂的,计算机网络是由计算机集合加通信设施组成的系统,利用各种通信手段,把地理上分散的计算机连在一起,达到相互通信而且共享软件、硬件和数据等资源的系统。计算机网络的发展,导致网络之间各种形式的连接。采用统一协议实现不同网络的互连,使互联网络很容易得到扩展。因特网就是用这种方式完成网络之间联结的网络。因特网采用TCP/IP协议作为通信协议,将世界范围内计算机网络连接在一起,成为当今世界最大的和最流行的国际性网络;其复杂性的还在日益增长。随之而来的网络发生故障的机率也越来越高,主要
2、原因如下:,10.1 网络故障成因,下一页,返回,1.现代的因特网络要求支持更广泛的应用,包括数据、语音、视频及它们的集成传输。 2.新业务发展使网络带宽的需求不断增长,这就要求新技术的不断出现。例如:十兆以太网向百兆、千兆以太网的演进;MPLS技术的出现;提供QoS能力等。 3.新技术的应用同时还要兼顾传统的技术。例如,传统的SNA体系结构仍在某些场合使用,DLSw作为通过TCP/IP承载SNA的一种技术而被应用。 4.对网络协议和技术有着深入的理解,能够正确地维护网络尽量不出现故障,并确保出现故障之后能够迅速、准确地定位问题并排除故障的网络维护和管理人才缺乏。,10.1 网络故障成因,返回
3、,上一页,在现行的网络管理体制中,由于网络故障的多样性和复杂性,网络故障分类方法也不尽相同。根据网络故障的性质可以分为物理故障与逻辑故障,也可以根据网络故障的对象分为线路故障、路由器故障和主机故障。 一、按网络故障的性质划分 1物理故障 物理故障,是指设备或线路损坏、插头松动、线路受到严重电磁干扰等情况。比如说,网络中某条线路突然中断,如已安装网络监控软件就能够从监控界面上发现该线路流量突然掉下来或系统弹出报警界面,,10.2 网络故障分类,下一页,返回,更直接的反映就是处于该线路端口上的无线电管理信息系统无法使用。用DOS命令集中的ping命令检查线路与网络管理中心服务器端口是否连通,如果不
4、连通,则检查端口插头是否松动,如果松动则插紧,再用ping命令检查,如果已连通则故障解决。也有可能是线路远离网络管理中心的那端插头松动,则需要检查终端设备的连接状况。如果插口没有问题,则可利用网线测试设备进行通路测试,发现问题应重新更换一条网线。 另一种常见的物理故障就是网络插头误接。这种情况经常是没有搞清网络插头规范或没有弄清网络拓扑结构的情况下导致的。熟悉掌握网络插头规范,如T568A和T568B,,10.2 网络故障分类,下一页,返回,上一页,搞清网线中每根线的颜色和意义,做出符合规范的插头。 还有一种情况,比如两个路由器直接连接,这时应该让一台路由器的出口连接另一路由器的入口,而这台路
5、由器的入口连接另一路由器的出口才行,这时制作的网线就应该满足这一特性,否则也会导致网络误解。不过像这种网络连接故障显得很隐蔽,要诊断这种故障没有什么特别好的工具,只有依靠网络管理的经验进行解决。 2. 逻辑故障 逻辑故障中的一种常见情况就是配置错误,就是指因为网络设备的配置原因而导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,,10.2 网络故障分类,下一页,返回,上一页,或路由器路由配置错误以致于路由循环或找不到远端地址,或者是网络掩码设置错误等。比如,同样是网络中某条线路故障,发现该线路没有流量,但又可以Ping通线路两端的端口,这时很可能就是路由配置错误导致循环了。 逻辑故障
6、中另一类故障就是一些重要进程或端口关闭,以及系统的负载过高。比如,路由器的SNMP进程意外关闭或死掉,这时网络管理系统将不能从路由器中采集到任何数据,因此网络管理系统失去了对该路由器的控制。还有,也是线路中断,没有流量,这时用ping发现线路近端的端口ping不通。检查发现该端口处于down的状态,就是说该端口已经给关闭了,因此导致故障。,10.2 网络故障分类,下一页,返回,上一页,这时只需重新启动该端口,就可以恢复线路的连通了。 此外,还有一种常见情况是路由器的负载过高,表现为路由器CPU温度太高、CPU利用率太高,以及内存余量太小等,虽然这种故障不能直接影响网络的连通,但却影响到网络提供
7、服务的质量,而且也容易导致硬件设备的损害。 二、按网络故障的对象划分 1线路故障 线路故障最常见的情况就是线路不通,诊断这种故障可用ping检查线路远端的路由器端口是否还能响应,或检测该线路上的流量是否还存在。,10.2 网络故障分类,下一页,返回,上一页,一旦发现远端路由器端口不通,或该线路没有流量,则该线路可能出现了故障。这时有几种处理方法。首先是ping线路两端路由器端口,检查两端的端口是否关闭了。如果其中一端端口没有响应则可能是路由器端口故障。如果是近端端口关闭,则可检查端口插头是否松动,路由器端口是否处于down的状态;如果是远端端口关闭,则要通知线路对方进行检查。进行这些故障处理之
8、后,线路往往就通畅了。 如果线路仍然不通,一种可能就得线路本身的问题,看是否线路中间被切断;另一种可能就是路由器配置出错,比如路由循环了。就是远端端口路由又指向了线路的近端,,10.2 网络故障分类,下一页,返回,上一页,这样线路远端连接的网络用户就不通了,这种故障可以用traceroute来诊断。解决路由循环的方法就是重新配置路由器端口的静态路由或动态路由。 2路由器故障 事实上,线路故障中很多情况都涉及到路由器,因此也可以把一些线路故障归结为路由器故障。但线路涉及到两端的路由器,因此在考虑线路故障是要涉及到多个路由器。有些路由器故障仅仅涉及到它本身,这些故障比较典型的就是路由器CPU温度过
9、高、CPU利用率过高和路由器内存余量太小。其中最危险的是路由器CPU温度过高,因为这可能导致路由器烧毁。,10.2 网络故障分类,下一页,返回,上一页,而路由器CPU利用率过高和路由器内存余量太小都将直接影响到网络服务的质量,比如路由器上丢包率就会随内存余量的下降而上升。检测这种类型的故障,需要利用MIB变量浏览器这种工具,从路由器MIB变量中读出有关的数据,通常情况下网络管理系统有专门的管理进程不断地检测路由器的关键数据,并及时给出报警。而解决这种故障,只有对路由器进行升级、扩内存等,或者重新规划网络的拓扑结构。 另一种路由器故障就是自身的配置错误。比如配置的协议类型不对,配置的端口不对等。
10、这种故障比较少见,在使用初期配置好路由器基本上就不会出现了。,10.2 网络故障分类,下一页,返回,上一页,3主机故障 主机故障常见的现象就是主机的配置不当。比如,主机配置的IP地址与其他主机冲突,或IP地址根本就不在子网范围内,这将导致该主机不能连通。如某无线电管理处的网段范围是172.16.19.1172.16.19.253,所以主机地址只有设置在此段区间内才有效。还有一些服务设置的故障。比如E-Mail服务器设置不当导致不能收发E-Mail,或者域名服务器设置不当将导致不能解析域名。主机故障的另一种可能是主机安全故障。比如,主机没有控制其上的finger,rpc,rlogin等多余服务。
11、而恶意攻击者可以通过这些多余进程的正常服务或bug攻击该主机,甚至得到该主机的超级用户权限等。,10.2 网络故障分类,下一页,返回,上一页,另外,还有一些主机的其他故障,比如不当共享本机硬盘等,将导致恶意攻击者非法利用该主机的资源。发现主机故障是一件困难的事情,特别是别人恶意的攻击。一般可以通过监视主机的流量、或扫描主机端口和服务来防止可能的漏洞。当发现主机受到攻击之后,应立即分析可能的漏洞,并加以预防,同时通知网络管理人员注意。现在,各市都安装了防火墙,如果防火墙地址权限设置不当,也会造成网络的连接故障,只要在设置使用防火墙时加以注意,这种故障就能解决。,10.2 网络故障分类,下一页,返
12、回,上一页,三、按照网络故障的表现划分 1.连通性表现 网络连通性是故障发生后首先应当考虑的原因。连通性的问题通常涉及到网卡、跳线、信息插座、网线、交换机、Modem等设备和通信介质。其中,任何一个设备的损坏,都会导致网络连接的中断。连通性通常可以采用软件和硬件工具进行测试验证。 2.性能表现 (1)网络拥塞 (2)到目的地不是最佳路由,10.2 网络故障分类,下一页,返回,上一页,(3)供电不足 (4)路由环路 (5)网络错误,10.2 网络故障分类,返回,上一页,1.总体原则: 故障处理系统化是合理地一步一步找出故障原因并解决的总体原则。它的基本思想是系统地将由故障可能的原因所构成的一个大
13、集合缩减(或隔离)成几个小的子集,从而使问题的复杂度迅速下降。 在网络故障的检查与排除中,掌握合理的分析步骤及排查原则是极其重要的,这一方面能够让我们快速地定位网络故障,找到引发相应故障的成因,从而最终解决问题,同时,也会让我们在工作中事半功倍,提高效率及降低网络维护的繁杂,最大限度地保持网络的不间断运行。,10.3 网络故障的排除方法,下一页,返回,2.网络故障解决的处理流程 在开始动手排除故障之前,最好先准备一支笔和一个记事本,然后,将故障现象认真仔细记录下来。在观察和记录时不要忽视细节,很多时候正是一些最小的细节使整个问题变得明朗化。排除大型网络故障如此,十几台计算机的小型网络的故障亦为
14、如此。 3. 网络故障的确认与定位 确认及识别网络故障,是网络维护的基础。在排除故障之前,必须确切地知道网络上到底出了什么毛病,究竟是不能共享资源,还是找接中断线等等,知道出了什么问题并能够及时确认、定位,是成功排除故障最重要的步骤。,10.3 网络故障的排除方法,下一页,返回,上一页,要确认网络故障,当然需要首先清楚网络系统正常情况下的工作状态,以此作参照,才能确认网络故障的现象,不然,对故障进行确认及定位将无从谈起。 1识别故障现象 在确认故障之前,应首先清楚如下几个问题: 当被记录的故障现象发生时,正在运行什么进程(即操作者正在对计算机进行什么操作)? 这个进程之前是否曾经运行过? 以前
15、这个进程的运行是否正常?,10.3 网络故障的排除方法,下一页,返回,上一页,这个进程最后一次成功运行是什么时候? 自该进程最后一次成功运行之后,系统做了哪些改变?这包括很多方面,如是否更换网卡、网线、系统是否新安装了某些新的应用程序等等。在这些问题的基础上,才能对可能存在的网络故障有个整体的把握,才能对症下药来排除故障。 2确认网络故障 在处理由操作者报告的问题时,对故障现象的详细描述显得尤为重要,特别是在目前大部分网络使用者缺乏相关知识的应用环境下,事实上,很多操作者报告的故障现象甚至不能称其为故障。如果仅凭他们的一面之词,便下最终的结论很多时候便显得草率。,10.3 网络故障的排除方法,
16、下一页,返回,上一页,这时就需要网络管理员对计算机进行亲自操作一下刚才出错的程序,并注意出错信息,比如说,操作者报告在使用Web浏览时,出现返回“该页无法显示”之类的信息,没准您会发现那只是针对特定网站的现象,可能缘于对方服务器故障或ISP的问题,而与您的局域网无关。 通过这些具体的信息才能最终确认是否存在相应的“网络故障”,这在某种程度上也即是一个对网络故障现象进行具体化的必要阶段。 (1).收集有关故障现象的信息; (2).对问题和故障现象进行详细的描述;,10.3 网络故障的排除方法,下一页,返回,上一页,(3).注意细节; (4).把所有的问题都记下来; (5).不要匆忙下结论。 3.
17、 分析可能导致错误的原因 作为网络管理员,则应当全面地考虑问题,分析导致网络故障的种种可能,如网卡硬件故障、网络连接故障、网络设备(HUB)故障、TCPIP协议设置不当,等等,仍然不要着急下结论,可以根据出错的可能性把这些原因按优先级别进行排序,一个个先后排除。,10.3 网络故障的排除方法,下一页,返回,上一页,4定位网络故障 对所有列出的可能导致错误的原因逐一测试。很多人在这方面容易犯的错误便是,往往根据一次测试,就断定某一区域的网络是运行正常或是不正常,或者在自己认为已经确定了的第一个错误上停下来,而忽视其他,要知道,网络故障很多时候并不是由一个因素导致的,往往是多个因素综合作用而造成,
18、单纯地头痛医头脚痛医脚最大的可能便是同一故障再三出现,按下葫芦浮起瓢,大大增加网络维护的工作量。 除了测试之外,网络管理员还要注意:千万不要忘记去看一看网卡、HUB、Modem、路由器面板上的LED指示灯。,10.3 网络故障的排除方法,下一页,返回,上一页,通常情况下,绿灯表示连接正常(Modem需要几个绿灯和红灯都要亮),红灯表示连接故障,不亮表示无连接或线路不通,长亮表示广播风暴,指示灯有规律地闪烁才是网络正常运行的标志。同时不要忘记的还是要记录所有观察及测试的手段和结果。 5隔离错误部位 经过你的一翻折腾后,这时你基本上知道了故障的部位,对于计算机的错误,你可以开始检查该计算机网卡是否
19、安装好、TCPIP协议是否安装并设置正确、Web浏览器的连接设置是否得当等一切与已知故障现象有关的内容。注意的是。在开机箱时,不要忘记静电对计算机芯片的危害,以及正确拆卸计算机部件。,10.3 网络故障的排除方法,下一页,返回,上一页,6故障分析 处理完问题后,作为网络管理员,还必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以后如何避免类似故障的发生,拟定相应的对策,采取必要的措施,制定严格的规章制度。比如说某一故障是由于用户安装了某款垃圾软件,那么就应该相应地通知用户日后对该类软件敬而远之,或者规定不准在局域网内运行之。 虽然网络故障的原因千变万化,但总的来讲万变不离其宗,不外乎就是硬件问题和软件问题,或者更准确地说就是网络连接性问题、配置文件选项问题及网络协议问题。,10.3 网络故障的排除方法,返回,上一页,