收藏 分享(赏)

光网络新空间-以太网常见故障处理专题.doc

上传人:hwpkd79526 文档编号:6832478 上传时间:2019-04-23 格式:DOC 页数:22 大小:169.50KB
下载 相关 举报
光网络新空间-以太网常见故障处理专题.doc_第1页
第1页 / 共22页
光网络新空间-以太网常见故障处理专题.doc_第2页
第2页 / 共22页
光网络新空间-以太网常见故障处理专题.doc_第3页
第3页 / 共22页
光网络新空间-以太网常见故障处理专题.doc_第4页
第4页 / 共22页
光网络新空间-以太网常见故障处理专题.doc_第5页
第5页 / 共22页
点击查看更多>>
资源描述

1、光网络新空间OptiX 光网络以太网常见问题专题1.1 背景知识1.1.1 以太网的工作模式及端口属性设置说明以太网业务信号在不同的以太网接口板上的处理过程是不同的,下面以OptiX 2500+的ET1板进行说明。以太网业务信号进入ET1板后,经过以太帧的拆分、重组后,被分组到各个VC-12;再经复用、映射到 VC-4后,送入交叉连接单元,完成业务时隙的调配;最后通过交叉连接单元送往线路板,完成业务信号由支路上线路的功能。【端口工作模式】以太网技术的发展可以分为两个主线:a、速率的增加,从10Mbps100Mbps1000Mbps10Gbps以太网帧格式始终保持一致,即可以实现不同速率以太网之

2、间的“无缝”桥接,有利于交换机转发速率的提高和成本的降低。b、双工技术的发展,从半双工全双工与半双工以太网不同的是,全双工的工作原则是“有则发送”,不需要理会通信介质的忙闲状态也不检测冲突,其实现基础为:1、端口支持全双工模式;2、通信介质独享(点对点通信)。速率和双工模式的组合可以构成多种端口工作模式,为了简化组网配置、解决端口对接问题,诞生了自协商技术:通过双方的“握手”(脉冲协商信号),使双方工作在都能支持的最高级别模式下。目前,支持速率和双工模式协商的主要是10/100M 电口,而光纤以太网一般不支持速率和双工模式的协商(只支持全双工),GE的自协商主要用于协商流控参数。注意:10/1

3、00M 电口 A 工作模式为 自适应,而 对端 B 为固定工作模式,A 通过接收的时钟信号可以判断出对端 B 的速率是100Mbps 还是10Mbps,但由于 B 不发出也不响应协商脉冲信号,导致 A 无法判断出对端 B 的双工模式,所以通常 A 最终只能工作在半双工模式下。若 B 本身就为半双工,业务正常;若 B 为全双工,则会出现半双工 VS 全双工,同一时刻,如果两端都处于发送状态,通信介质上必然会出 现碰撞, 导致丢包(全双工不 检测冲突更不会重发产生碰撞的帧),当通信数据量增大的 时候,碰撞的概率增大,丢包严重。因此,当端口设置为自协商时,要求在 link 上后查询端口实际工作模式,

4、杜 绝半双工 VS 全双工的情况出现。端口工作模式的问题,此处还有以下几点需要注意:1、HUB仅支持半双工模式,与HUB 对接时严禁设置端口为全双工;2、某些设备端口(比如PC)虽然可以设置为全双工或半双工模式,但设置后并不生效,即端口实际只能工作在自协商模式。3、以太网光接口若全双工VS自协商,则Link 不能建立。【对接时端口工作模式要求】我们的Metro设备中的ET1 板的8个以太网端口能够提供五种工作模式,自协商、100M全双工、100M半双工、10M全双工、10M半双工。 正确设置网口的工作模式需要本设备和对端设备配合完成。为保证业务的通畅,需要协调设置对接双方端口工作模式一致。如果

5、对端设备使用固定的全双工模式,则METRO设备的网口需要设置为同等速率的固定的全双工模式;因为根据IEEE 802.3的规定(详见IEEE 802.3 2000版第28章第2节),当自协商的端口与固定模式的端口对接时,自协商一方应通过并行检测(Parallel Detection)机制工作于同等速率的半双工模式下;此时数据量少时,业务也能通(如ping 业务能通), 但是数据量大时,就会造成业务完全中断。到网上运行时就会出现业务时断时续。因此在对端设备使用固定的全双工模式时,不建议将METRO的端口设置为自协商模式。【端口工作模式不一致时性能检测方法】通过分析相应的以太网性能事件,可以较顺利的

6、定位出是否存在对接端口工作模式不一致的情况: 1、本端是全双工,如果对端为半双工,必然有大量碰撞,而本端由于工作在全双工下所以不监听信道,不会直接丢弃碰撞后的包,会将收到的所有包进行CRC校验,因此 “接收有CRC 错的数据包” 值较大即出现大量CRC 校验错的包。2、本端是自适应,与碰撞有关的几个性能事件的值如果是零,说明链路工作在全双工模式下,对端是自协商且两端都自适应到了全双工模式,反之则工作在半双工模式下。3、本端是半双工,如果“发送过程中出现的碰撞次数”较大,以及“丢弃的数据包数上报”和“超过16次碰撞的数据包数”值不为零,那么说明对端很可能工作在全双工模式下。总之在Metro采用E

7、T1 的实际组网中,不能简单的以开局的时候能Ping通就认为一切正常,为了保障以后以太网业务的稳定,必须将对接两端的工作模式设置在一个合理的相同的模式下。【VLAN 与Tag标签】VLAN( Virtual Local Area Networks)即虚拟局域网。802.1q VLAN帧与原以太网帧相比,在帧头中的源地址后增加了一个4字节的802.1q帧头。这4个字节的802.1q标签头包含了2个字节的标签协议标识(TPID-Tag Protocol Identifier)和两个字节的标签控制信息( TCI-Tag Control Information)。端口属性为Tag的端口能够识别含有Ta

8、g 标签的数据包,其中Tag 标签中的12个bit用于标识VLAN ID 。【端口TAG 属性设置原则 】ET1的以太网端口与LANSWITCH等设备的TAG端口对接时,应设置TAG属性;对于不支持802.1Q的设备(如计算机、HUB ),我们可将单板的以太网的IP端口的TAG属性设置为 UNTAG,并设置端口默认的VLAN ID号,而 MP端口侧的TAG属性设置为TAG 。TAG属性一定要按照规定来设置,否则可能出现丢包现象。1.1.2 CSMA/CDIEEE 802.3主要定义了带冲突检测的载波监听多路访问算法(CSMA/CD:Carrier Sense Multiple Access w

9、ith Collision Detection)。CSMA/CD与人际间的通话非常相似(即先听再说,假设很多人在聊天,同一时间只允许一个人讲话),其实现的核心在于对通信介质的持续监听和信号发生碰撞后的延迟与再次发送,从而实现了通信介质的共享、完成多方通信。由算法原理可知,基于CSMA/CD的以太网是一种半双工技术,以信号碰撞和重传为代价,因此当网络的通信需求上升到一定量后,碰撞的概率增大,相应网络整体效率下降。1.1.3 以太网各种错帧(Ethernet )以下几种为常见的以太网错帧:1、CRC 校验错以太网帧的最末部分为4个字节的帧校验序列字段,接收端通过CRC(循环冗余校验)来校验帧在传送

10、过程中是否发生差错(误码)。对于CRC 校验出错的帧,一律丢弃。2、超短帧小于64字节的帧,认为是信号碰撞产生的残片,一律丢弃。3、超长帧超过端口允许的最长长度的帧,一律丢弃,MSTP系列产品端口默认最长帧为1522字节(可设置)。若全双工VS半双工,大量碰撞的会导致端口接收到不完整的帧,如果残片小于64字节,则认为是超短帧,直接丢弃;如果残片不小于64字节,则进行CRC 校验,但由于帧校验序列字段错误,则认为是CRC 错帧,也会丢弃。4、Alignment字节对齐错,比较少见,一般为硬件故障引起,碰撞也可能引起该类错包。1.1.4 以太网流控当设备的数据处理/转发能力小于端口接收到的流量时,

11、即发生了拥塞,为减少因缓存溢出而导致的丢包,必须进行适当的流量控制。基于CSMA/CD的半双工以太网,有两种方法实现流控:1、强行与将要到达的帧发生冲突;2、强行使信道处于忙状态。由于半双工以太网的现实意义不大,目前各种设备主要实现的是全双工以太网的显式流量控制:在发生拥塞的时候,端口发送特定的流控帧(PAUSE帧)到对端,对端接收到流控帧后便停止数据发送一段时间,从而减缓端口的拥塞压力。PAUSE帧是一种标准的以太网帧,其类型域的值为0x8808,净荷的主要内容为slot time(表明需要对端暂停数据发送的时间,若slot time为0,则表示对端可以立即恢复数据发送)。对于华为MSTP产

12、品系列以太网单板而言,都支持在自身拥塞的情况下向对端发送流控帧,但slot time一般为固定值(产品不同、版本不同,则取值不同)。流控的模式:1、非自协商流控不使能、只发送、只接收、使能(既发送又接收)2、自协商流控不使能、非对称流控(只发送,不处理)、对称流控、both对于接收到的流控帧,不同的单板处理方式不完全相同:支持情况:ET1单板: 支持非自协商流控EFGS系列单板:支持非自协商、自协商流控EFGT系列单板:支持非自协商、自协商流控1.1.5 VLAN对于ET1V1版本而言,VLAN的作用在于业务汇聚功能时用作路由标志,即通过配置VLAN路由实现以太网业务的汇聚功能,此时,有如下要

13、求:1、中心网元ET1的以太网端口设置为TAG属性;2、中心网元ET1对接的宽带数通设备必须具备3层功能,即可以进行VLAN的划分(一般根据目的IP地址划分不同的VLAN)。3、其他网元不做要求,根据实际情况灵活配置。其他场合,一律建议配置端口路由。对于ET1V2版本而言,VLAN的作用在于隔离,即通过VLAN过滤表实现端口的隔离,再在VLAN过滤表内通过二层交换实现帧的转发。1.1.6 封装与拆片数据业务具有突发和不定长的特性,这与要求严格同步的SDH帧有很大的区别,因此需要引入合适的数据链路层适配协议来完成以太数据封装,包括数据缓存、队列调度等,实现以太网到SDH VC的帧映射。ET1系列

14、单板的处理方式:发端首先将以太网帧拆成N个64字节长度的分片,然后采用ML-PPP协议对各个分片进行封装并依次轮循映射到绑定的VC12中,其中每个分片对应一个VC12。接收端首先从VC12中恢复出完整的分片,然后再将N个分片合成一个完整的以太网帧。EGT/EMS/EFS系列单板的处理方式:发端不对以太网帧进行拆片,而是采用LAPS/GFP 协议将整个以太网帧进行封装,然后以字节流依次轮循映射到绑定的VC中。接收端首先从VC中取出数据,然后去掉封装恢复成一个完整的以太网帧。疑问: 如果数据在传输过程中,即 SDH侧出现误码,单板如何处理?解答: 无论是何种封装协议,在封装时都会加入 CRC校验,

15、接收端在恢复成完整的以太网帧时,会对数据进行相应的 CRC校验,如果校验错,则直接丢弃相关数据,不会将产生错误的以太网帧发送出去。1.1.7 常用单板性能指标1、吞吐量(Throughput):网络不丢帧情况下的最大速率,是最直接反映“带宽”的一个性能指标;2、时延(Latency):设备的处理过程引入的延时;3、丢帧率(Frame Loss Rate):在网络稳定状态下由于网络资源缺乏造成的不能转发的数据帧和总数据帧的百分比,理论上,吞吐量+丢帧率100%;4、背靠背( Back-to-Back ):网络允许的无帧丢失通过的、以最小的合法帧间隙出现的连续数据帧的最大长度,反映系统对数据突发的

16、容忍能力。由于吞吐量和丢帧率具有互补的关系,一般情况下只需要关注吞吐量和时延这两项性能指标,尽量引导用户不测试单板的背靠背指标。当然,在故障定位时,要综合考虑以上几种性能指标对业务带来的影响。另外,长期稳定性测试能反映出系统在一定负荷下长期工作的可靠性,对于用户反映业务有少量丢包的故障,最终可通过此项测试来判断是否为MSTP产品故障引起。综合而言,MSTP产品提供的是链路层和物理层功能,任何严格意义上的测试都必须是仅仅基于这两层的,其他通过一些软件手段进行的测试由于引入了高层协议、软件实现等多种外部因素,都只能在一定程度上近似的反映出MSTP产品的部分性能指标,并不准确,不推荐做为衡量标准。疑

17、问: 为何吞吐量测试时,测试用的帧长度不同,则测试结果不同?解答: 主要是帧间间隔、前导码等不需经过 SDH传送(由对端直接重生),即不占用通道绑定的带宽。1.1.8 性能事件(RMON)不同以太网特性单板提供了不同的性能监视功能,具有RMON特性的单板还可以提供相关性能值越界告警,在日常维护和故障定位中,性能事件(RMON )是一个很好的辅助工具。在众多性能事件中,通常需要重点关注以下内容:1、各种错包a、CRC错和超短帧:首先排除端口模式不匹配的问题,其次是网线质量(干扰)的可能性,最后定位是否为网口硬件故障。b、Alignment:首先排除碰撞的可能性,如错包数量较多,建议更换硬件(对端

18、设备故障可能性较高)。c、发送错包:一般为本端FIFO处理能力瓶颈引起或硬件故障,如错包数量较多且频繁,建议更换单板。2、流控帧表明网络流量过大,建议用户适当调整业务负载或进行流量整形。3、碰撞与退避表明本端口工作在半双工模式下,建议查询对端是否也工作在半双工模式。对于其他性能事件,日常维护中不必过分关注。1.2 以太网常见故障定位思路处及问题处理方法1.2.1 故障定位思路与要求与SDH故障定位思路一样,以太网故障定位也遵循“先外部、再内部;先软件、再硬件;先单板、再系统”的原则,充分利用性能事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计划有步骤的定位。同时,定位手段应具有针对

19、性,这就要求工程师具备从纷繁的故障现象中迅速判断故障大致原因的能力,这种能力来源于两个方面:1、对数据通信技术和SDH技术的深入了解;2、经验的积累。与SDH定位不同的是,以太网本身缺乏网络管理、监控能力,即OAM 功能很弱,这种劣势往往需要更多的使用工具软件和仪表来弥补。同时,故障往往牵涉传输和数通两大产品,这就要求工程师能站在整个网络的高度、业务的角度来看待问题,而不是仅仅看到SDH网络。1.2.2 常见故障现象及原因发生以太网故障时,常见的故障现象有: 业务不通; 开通的业务异常,如:上网速度慢,设备时延较大,业务有丢包,发送或者接收的数据有错包。常见原因如下表所示。故障类别 故障原因电

20、缆或光纤接触不良电缆或光纤连接错误网线制作不规范对接信号衰耗过大或不符合标准要求对接设备的业务配置不正确对接设备故障网线或者光纤的传输长度超过规范环境电磁干扰严重,影响网线传输外部原因两端设备协商出现问题对接设备光口选择错误(单模或者多模)端口属性设置不正确(Tag 属性、缺省 VLAN)路由配置错误两端绑定通道捆绑的2M 数目不一致对接信号的速率不同对接信号的工作模式不同(全双工或者半双工)环境温度或者子架温度过高以太网板故障光接口物理特性异常(发光功率过低、抖动过大等)SDH 部分业务配置错误设备原因SDH 故障(线路板、交叉板故障,倒换失败,线路误码等)1.2.3 以太网故障定位时如何找

21、准问题的锲入点?原则:与SDH 故障定位思路一样,以太网故障定位也遵循“先外部、再内部;先软件、再硬件;先单板、再系统”的原则,充分利用性能事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计划有步骤的定位。步骤:弄清故障现象:1)、业务全阻;2)、业务部分丢包;3)、非故障。查询伴随的告警和性能:1)、SDH侧;2)、以太网侧。难点:判定故障界面:1)、MSTP故障;2)、数通产品故障; 3)、对接故障。结论:若数量较大,则先硬复位单板,如现象持续,则更换单板。1.2.4 常见故障处理步骤检查 SDH 告警及业务出现以太网业务故障时,首先通过网管,检查SDH业务是否正常,是否有SDH

22、类型的告警。检查并分析性能事件当以太网业务异常时,OptiX 2500+通常会上报性能事件。下表列出了性能事件与故障原因的对应关系。性能事件 故障原因RXCRC(接收有CRC错的数据包)RXBBAD(接收不正确的数据包)RXSCRC(接收错误的短数据包)RXLCRC(CRC 错误的超长数据包)端口工作模式不匹配,单板故障Txcol(发送过程中出现的碰撞次数)Txxcol(超过16次的数据报数) 两侧端口的工作模式不一致Txscok (一次碰撞后正确发送的数据包)Txmcok(多次碰撞后正确发送的数据包)Txlc(迟到的碰撞导致停发的数据包数)两侧端口的工作模式不一致RXpause(正确接收的流

23、控数据包) 发送给对接设备的流量过大Txpause(正确发送的流控数据包) 对接设备发送的流量超过设备的带宽Txerr(由于underflow 错误而发送的数据包数) TXBBAD(非正确发送字节数上报) 单板故障1.2.5 常用故障定位方法仪表测试法使用PC 机的ping 命令是测试以太网业务的常用方法。操作方法:配置一条连接,两端端口的Tag属性设置为UnTag ,然后在两端用户接入端口分别接入一台PC,将两台PC设置在同一网段内,然后使用ping命令,用其中一台PC ping另一台PC的IP地址。要求ping包长为6410000byte之间的不同包长的包,如果都能够ping通,则可以确认

24、设备工作正常。当只有一台PC的时候,可采用如下方法:(1) 将本站以太网板的一个端口连接PC;(2) 将对端站以太网板的一个端口连接到该站主控板的以太网接口;(3) 在本站使用不同的包长ping对端站的IP地址。注意,此时以太网板要设置为10Mbit/s半双工或自协商。环回法采用环回法定位以太网对接故障时,通常按照“MAC层环回”、“E1支路环回”、“VC-4外环回” 、“光口环回”的顺序依次进行环回操作。环回操作通常与ping命令同时使用:首先根据需要,设置端口的环回,然后使用ping命令任意ping一个IP地址;通过端口统计的性能事件来查看数据包的增长,如果性能事件中的某一数据包的接收和发

25、送数据没有同步增长,则说明环回处有问题。对比法使用相同的配置在同一时间,同一地点进行相同的操作,以确定是传输设备的问题还是以太网对接设备的问题。操作步骤:1、将本地两台PC通过交叉网线直接相连,进行ping 测试,并记录ping的结果。2、在传输设备上配置两条以太网路由;然后在传输设备远端站点将这两条路由串接(即配置一条VC-Trunk至VC-Trunk的路由或者将以太网端口硬件环回)。3、在本端将步骤1使用的两台PC,分别连接到已在步骤2 完成配置的两个以太网端口;然后进行与步骤1同样的ping 测试;如下图所示。比较步骤1和步骤3 ping测试的结果;如果比较结果有数量级上的差异,则说明传

26、输设备有问题。以太网性能分析方法1、 最直观的定位工具RMON处理SDH 故障时,我们首先做的就是查告警查性能,同样,处理以太网故障时,我们第一步也是查清告警和性能。请注意,涵盖SDH侧和以太网侧。排除A类告警:Ethlos、AIS、LOP等必然导致业务中断的告警。排除B类告警和性能:B3SD、LPBBE等导致业务丢包。重点分析RMON: 错包、碰撞与延迟、流控、硬件异常。2、 RMON 分析A、错包事件AlignmentErrors:对齐错误-碰撞引起或硬件故障(对端居多)。FCSErrors:CRC校验错-碰撞(全双工VS半双工)、网线质量差或受到干扰、对端硬件故障。结论:查端口模式、查网

27、线、查对端硬件B、碰撞相关事件结论:a、本端口实际工作在半双工模式,建议调整到全双工模式;b、CSMA/CD算法所决定,非故障。C、流控事件结论:反映了通道的“拥挤”程度,建议根据需要扩容。D、硬件异常DropEvents:由于FIFO溢出而导致的丢包1.2.6 故障类型-业务严重受损A、判定故障原因是否在MSTP侧探询故障的触发事件是否对网络做过操作、发生倒换等;隔离法:两端直接使用PC互Ping;发测试帧:简单实用(需要单板支持)。B、 定位故障点法宝一:环回,环回定位手段仅针对以太网透传单板。对于二层交换单板在进行二层转发处理时会将自己发出去的包丢弃,因此对于二层交换的单板进行环回测试时

28、没有意义。法宝二:测试帧(对于EFGS、EFGT单板,测试帧是我们定位故障界面比较有力的工具)不支持咋办啦?不支持那就用法宝三;法宝三:RMON性能统计。C、 套路从近端开始逐段环回(以太网单板、交叉、线路),每环回一段,通过测试帧测试是否收、发一致,当收发不一致时,即找到故障所在点。如产品不支持测试帧功能,则只能利用PC发包,通过单板端口 RMON的收、发包数量是否一致来判断。1.2.7 故障类型-业务损伤不明显判定故障原因是否在MSTP侧。由于此时业务损伤不明显,甚至不能称之为“故障”,因此通过隔离法往往难以迅速判定故障界面;或故障具有突发性和自愈性,不能及时抓到故障信息,需要长期监测定位

29、。此类问题,一般有以下几种处理方法:A、 调走业务,使用仪表对问题通道进行长期(2472小时)稳定性测试,验证通道的长期可靠性。B、 不调动业务,使用仪表或软件工具进行在线长期监测,记录并输出log文件和其他信息。C、 替换法,直接更换相应单板,在线长期观察。1.3 典型案例1.3.1 案例一:SDH业务故障引起以太网业务中断【现象描述】某传输网络采用OptiX 2500+组成2纤双向复用段环,组网图如组网图所示,1号站为业务中心站。各站均配置有ET1板,集中型业务,即各站只与1号站有业务。环上3号站的用户反映在上网时,时通时断;网页有时能打开,有时打不开。在网管上查询告警,发现3号站的ET1

30、板上有大量瞬时性LP_RDI告警上报,对端1号站的ET1板上有大量瞬时性TU_AIS告警上报;每次告警只持续1到2秒,间隔大约12分钟。3号站和1号站的2M支路板、STM-1接口板都没有异常告警,整个网络只有Ethernet 业务受影响。1号站ET1板的端口分别对应环上各站点的ET1板端口,各站点的业务使用同一个VC-4汇接到1号站;而且 1号站的2块ET1上不是所有2M都有TU_AIS,其中有5个2M没有TU_AIS,这5个2M和其他2M唯一不同的就是这5个2M都来自1站东向板位的S16,其它有TU_AIS的 2M业务都来自1站西向板位的S16。 wSTM-4 SP4eeeewww123 (

31、1) 组网图【告警信息】LP_RDI、TU_AIS告警。【原因分析】1、ET1板瞬报LP_RDI、TU_AIS告警应该是影响以太网业务的根本原因,所以应首先排除SDH业务出现故障;2、ET1板故障。【处理过程】1、查询各网元性能事件,没有发现再生段异常性能事件,1号、3号网元ET1板有低阶通道误码;2、避开业务高峰对1号站XCS板进行主备倒换,结果故障现象依然存在。倒换4号站点的XCS板,告警结束。观察1个小时,仍然正常。再将4号站点的XCS 板倒回,故障重现,可以定位为该XCS 板故障。更换该板后故障排除。【建议和总结】由于XCS 板故障导致某个 VC-4业务无法穿通,SDH业务受到影响,使

32、得使用户该部分业务的ET1板相业务受到影响。在定位以太网业务故障时,先要观察SDH 的告警和性能事件,在确保SDH 无误的前提下,再进行以太网的故障定位。1.3.2 案例二:使用二分法在线定位ET1 单板故障 【现象描述】: 组网:A-B-C-D-A组成2.5G双向MSP环,各站点均为2500+ 设备,A为中心局,配置了3块ET1单板,B 、C和D 为支局,各配一块ET1单板;A站的3块ET1单板分别和每个支局的ET1单板开通以太网业务。A 站的3块ET1单板各出一个以太网接口连接至中心局的路由器上,下面各支局的ET1单板出一个以太网接口连接至交换机上。某日,A至B的业务有规律性丢包。 【告警

33、信息】: 无任何告警。 【原因分析】: 首先察看SDH 是否有告警,经检查SDH 无任何告警信息,也没有任何异常的性能事件,经过同一块交叉板和线路板的其他业务正常,可以判断故障发生在以太网侧,即ET1单板上,由于业务是有规律性的丢包,可能是由于ET1的某些通道不好导致,由于业务正在运行,虽然有丢包但是业务还是通的,不便以中断业务的方法来定位故障原因。由数据原理可知,以太网业务的短时间丢包会引起上层协议的重传,业务不会完全中断,只是增加了上层业务的工作量而已。因而决定采用二分法进行排查到底是哪块ET1的哪个通道出现问题。 【处理过程】 1、检查SDH 的历史和当前告警、性能事件,发现没有异常告警

34、和性能事件。2、A至B站的业务绑定了30E1,因而采用二分法逐一判断哪块单板的哪个通道发生故障。3、将A至B站的带宽绑定改为20个2M(1-20 ),这样,两端就空出10个2M(21-30),察看以太网业务是否通畅,发现以太网业务没有丢包发生。保证了业务的不中断。4、问题发生在A站或B站的21-30通道上。5、将A站点的10个2M(21-30通道)配置为本地上下的业务,即MAC1Vctrunk1MAC2Vctrunk2,其中Vctrunk1绑定5个2M,Vctrunk2 绑定5个2M ,测试结果 ping 2000字节无丢包。6、将B站点的10个2M(21-30通道)配置为本地上下的业务,即M

35、AC1Vctrunk1Vctrunk2 MAC2 ,其中Vctrunk1绑定5个2M,MP2绑定5个2M,测试结果 ping 2000字节有规律性丢包。说明问题出在B站的ET1 的空出的10个2M 上。7、将B站ET1 空出的10个2M,再进行细分,每次每个Vctrunk绑定2个2M,进行判断,发现,ET1单板的第29个通道有问题。只要绑定包含第29通道,就会有丢包出现。8、将B站点的ET1 单板更换业务正常。 【建议与总结】 在进行以太网业务的故障判断的时候,二分法是一个很有效的手段,虽然有时候需要的步骤和操作多了一些,但是可以明确的判断具体问题的所在。在对以太网业务进行判断的时候,ping

36、 也是最重要的手段,ping 2000字节是一个前提。总之,要把握好以太网业务的信号流,明确各个步骤业务是如何处理的,就能快速准确的定位出故障来。 1.3.3 案例三:网线质量问题导致以太网业务有丢包现象 【现象描述】 点对点专线业务,配置完成后,使用便携机互PING,可以PING 通,但是有丢包。 【告警信息】 无 【原因分析】丢包问题可能的原因一般是线路有误码、带宽不够、流量突发、配置问题(端口模式、MTU值等)、硬件故障、线缆、对发小包等方面的原因。【处理过程】 1、查看性能发现有大量的接收CRC错误数据包,表明数据到达MAC芯片后校验出错,说明很可能是由外界引入的。2、更换网线后,故障

37、排除。【建议与总结】 性能发现有大量的接收CRC错误数据包,表明数据到达 MAC芯片后校验出错,说明很可能是由外界引入的,这时需要检查网线及对端设备是否有故障。1.3.4 案例四: 对接端口工作模式不一致导致ET1 板MAC 端口存在大量RXCRC、RXBBAD 性能【现象描述】 采用2500+设备ET1板开站点对点专线业务,对端接路由器。数据部门反馈该业务存在丢包现象,没有什么规律,平均每月2至3次。ET1板及传输侧无任何告警。 【告警信息】 ET1传送的数据业务存在丢包现象,没有什么规律,平均每月2至3次。ET1板及传输侧无任何告警。 【原因分析】 数据丢包问题一般来说有以下几个原因:1、

38、流量过大超过带宽配置;2、对接端口工作模式不一致;3、网线质量问题;4、ET1板或对接设备故障;一般来说,对接端口工作模式不一致可能性较大,出现的次数较多。分析ET1板的性能数据是定位该类问题的主要手段。 【处理过程】 1、观察ET1板性能数据,发现端口存在大量RXCRC 、RXBBAD 。RXCRC表示接收有CRC错的数据包,RXBBAD表示接收到不正确的数据包字节数上报,后者一般由前者引起,正常情况下均不应该存在,即这两项数据应该为0。可能原因:网线质量不好,对接端口工作模式不一致。2、检查ET1板MAC端口工作模式,发现设置为100M全双工,对接路由器端口设置为自协商。根据对接自协商协议

39、,路由器端口实际工作模式应为100M半双工,即对接工作模式不一致。修改了路由器端口工作模式为100M全双工,再次观察ET1板性能,发现RXCRC、RXBBAD 消失,即数值一直为 0。长时间观察业务运行情况,丢包现象没有再次出现,问题解决。【建议与总结】以太网有丢包时,可充分利用以太网性能事件进行分析问题原因。在以太网端口对接时,建议将端口工作模式设置为相同模式。 1.3.5 案例:端口工作模式设置不匹配引起业务不通【现象描述】某地采用两台OptiX 2500+网元组成二纤双向无保护链,如所示。用户通过ET1板上网。用户通报网络不通。查询网管,无任何告警信息。两端连接两台PC,进行ping测试

40、时,测试不通。【告警信息】无【原因分析】两端台式机ping不通,有以下可能原因:1、网线故障;2、ET1板端口工作模式不匹配;3、ET1板端口TAG/UNTAG属性配置不正确;4、以太网业务配置错误;【处理过程】 1、首先确定连接网线、PC、尾纤等硬件,无故障。2、检查配置:虚通道设置、路由设置,端口的工作模式。发现以太网口的工作模式设置有问题。PC只支持10Mbit/s速率的数据,而ET1板的端口工作模式设置为100Mbit/s全双工。改为10Mbit/s 全双工后,可以ping通。业务恢复正常。【建议与总结】在进行设备对接的时候,要求对接设备的端口的工作模式设置一致。即如果对端设置为固定的

41、工作模式,例如100Mbit/s全双工,则本端也要求设置为100Mbit/s 全双工;如果对端设置为自协商,则本端也要设置为自协商。1.3.6网线制作不规范引起业务丢包【现象描述】某局使用OptiX 2500+的ET1板与C公司的以太网交换机对接。在对接时,OptiX 2500+设备以太网板的以太网灯常亮,设备无告警;但C公司交换机的以太网指示灯总是几秒灭,几秒亮。进行ping 操作时丢包严重。【原因分析】对接设备以太网灯时亮时灭,应该是电平检测的问题。与业务配置无关。如果业务配置错了,以太网灯不会亮。因此最有可能是网线问题。【处理过程】1、检查网线的线序是否正确,发现不是标准的线序。2、换成

42、标准线序的网线后,故障消失,ping 时无丢包,延迟时间3-4ms。【建议与总结】网线的制作必须符合规范要求。1.3.7 案例五:如何判断使用标准网线还是交叉网线?【现象描述】在不同的数据通讯设备对接的时候,因不清楚使用什么类型的网线,有时因为使用了错误的网线导致了业务不通,也以为是配置原因而无法定位。【原因分析】数据通讯设备可以区分为两类:终端型设备和汇聚型设备。网线选用的原则是:终端型设备之间互连使用交叉网线,如PC之间互连;汇聚型设备之间数据口互连使用交叉网线,如HUB和L2 之间互连(UPLINK口与数据口互连使用标准网线);终端和汇聚型设备之间互连使用标准网线,如PC和 L2之间互连

43、。常见终端型设备:PC、路由器、以太网单板;常见汇聚型设备:HUB、L2。【处理过程】请使用正确的网线。1.3.8 两端绑定虚通道不匹配引起业务中断【现象描述】某传输网采用OptiX 2500+和OptiX 155/622H组成,其中心站 OptiX 2500+与环上另一站OptiX 155/622H各绑定配置102Mbit/s的以太网业务。用户反映不能上网。有的时候使用QQ等软件没有问题,但是不能浏览网页。没有任何告警信息。使用两台PC互相ping 测试,发现ping包长较小的时候,没问题;当ping包长较长的时候,发现对端设备不可达。【告警信息】无【原因分析】一般情况下,以太网业务不通通常

44、有以下几种原因: 以太网口的工作模式与路由器或交换机侧的工作模式不匹配; ET1 板的以太网端口或绑定通道口的Tag 属性设置不正确; 交换机侧的Tag属性设置不正确; 网线制作不规范导致高速率的业务不通; 业务配置问题,两侧绑定的虚通道不一致。【处理过程】 1、查询全网告警,发现无任何异常告警,说明2M业务侧无问题。2、检查业务不通两端传输设备和交换侧的以太网端口工作模式与属性的设置,均设置正确。3、将中心站的OptiX 2500+连到交换侧,在本站使用便携 PC连到OptiX 155/622H上,ping对端交换机的 IP,可以ping 通;ping域名DNS也没有问题。5、经过以上步骤可

45、以断定网络是通的,用户业务不通可能是由于以太网业务的传输速率过低导致的。经过多次ping 包发现,超过890字节则ping不通。6、在确认两端网线无质量问题后,怀疑业务配置。经过检查业务配置,发现中心站OptiX 2500+侧的绑定通道为112M,而本站OptiX 155/622H侧的绑定通道为102M。将两端绑定通道统一设置为102M后,故障排除。【建议与总结】在进行以太网业务调测时,ping 小包能通,ping 大包不通,最可能的原因就是两端绑定的虚通道不一致,因此需要重点检查一下配置。1.3.9 案例六 :以太网端口属性的理解【问题名称】以太网端口属性的理解【现象描述】有一个部队大院,设

46、立了三个门岗:东门、西门和南门。他们的门岗进出有如下规定:1、进出大院,必需持有部队认可的证件:内部通行证和来访证。2、东门,进出的人,只允许持有内部通行证。3、西门,进出的人,只允许持来访证。4、南 门 , 持 来 访 证 和 内 部 通 行 证 的 人 都 可 进 出 : 进 门 时 , 持 通 行 证 的 人 直 接 通行 , 来 访 的 人 , 给 其 发 放 来 访 证 。 出 门 时 , 检 查 证 件 , 持 来 访 证 的 人 交 还 来 访证 , 持 通 行 证 的 人 直 接 放 行 。5、来访人员,进门前先办来访证,出门时交还来访证。根据以上规定,我们可以得出如下结论:一

47、、 持内部通行证的人,在进门前是持有证件的,不用办理和交还来访证, 可以从东门进,可以从东门出;不能从西门进,不能从西门出;可以从南门进,也可以从南门出。 二、持来访证的人,在进门前是没有证件的,需要办理和交还来访证,不能从东门进, 不能从东门出; 可以从西门进,进门前办来访证。可以从西门出,出门时交还证件;可以从南门进,进门前办来访证,可以从南门出,出门时交还证件。三、 来访的人,进门前,是没有证件的 ,出门时是有证件的。持有内部通行证的人,一直是持有证件的。用表格来表示:证件种类门岗X Y东门(入) 通行 禁止东门(出) 通行 西门(入) 禁止 发放来访证西门(出) 收回来访证 南门(入)

48、 通行 发放来访证南门(出) 如果持来访证,则收回来访证,否则,通行。为了理解数据进出以太网的情况,现将以太网的端口属性与各门岗进行一一对应;数据是否带VLAN与证件的种类进行对应。端口属性: Tag aware 东门; Access 西门; Hybrid 南门;数据属性: Tag X (持有证件 ) ; Untag Y(没有证件) ;再将事件对应起来:透传 通行; 禁止 丢弃; 来访证 缺省VLAN;上面的表格就等价于以下的表格:数据端口ET1V1 ET1V2 EFGSTag Untag TagUntagTagUntagTag aware (入) 透传 丢弃 透传丢弃透传丢弃Tag awar

49、e (出) 透传 透传透传Access(入) 叠加Vlan 增加缺省Vlan 丢弃增加缺省Vlan丢弃增加缺省VlanAccess (出) 去掉Vlan 去掉Vlan去掉VlanHybrid(入 ) 透传增加缺省VlanHybrid(出 ) 如果端口缺省Vlan相同,则去掉Vlan传送,否则,透传。1、对于ET1V1和ET1V2 ,只有东西门两个门,其端口属性,untang等价于Access、tag等价于 Tag aware。2、对于ET1V1,由于早期机制不完善,西门的处理比较特殊,不论你是否持有通行证,都会给你发来访证,出西门时,回收来访证,即tag数据还要被加上一个缺省的VLAN ID。3、增加缺省VLAN,相当于发放来访证。去掉VLAN,事实上去掉的与缺省VLAN 一致的VLAN ,也就是去掉缺省VLAN 。4、至于“数据出单板前一定是带有VLAN的”,就可以理解为,在出大院门岗前,一定是持有证件的。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报