收藏 分享(赏)

PTN运行维护知识.doc

上传人:j35w19 文档编号:7540039 上传时间:2019-05-21 格式:DOC 页数:11 大小:229.50KB
下载 相关 举报
PTN运行维护知识.doc_第1页
第1页 / 共11页
PTN运行维护知识.doc_第2页
第2页 / 共11页
PTN运行维护知识.doc_第3页
第3页 / 共11页
PTN运行维护知识.doc_第4页
第4页 / 共11页
PTN运行维护知识.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、PTN 运行维护篇目 录1.1 网络故障处理基本思路和方法 31.1.1 PTN 与 MSTP 告警对比 31.1.2 常见告警故障处理方法 51.1.3 以太网业务丢包类故障处理方法 71.1.4 OAM/PING 调试法 71.1.5 环回逐段定位法 101.2 PTN 网络例行监控 111.1 网络故障处理基本思路和方法PTN 的组网、业务配置愈发复杂,需分组厂商网管尽快做好 SDHLike 功能。为尽快恢复业务,将检测的故障点最小化,需了解 SDH 原理、IP 网络原理知识、告警信号流及告警产生机理、PTN 设备和网管基本操作、常用仪表的基本操作,了解网络拓扑,业务配置,设备运行状态。

2、 告警、性能分析法 OAM/PING 调试法 环回法PTN 对于 Tunnel 的故障可用 MPLS OAM 来检测,MPLS OAM 包括 CV/FFD、Ping 和Traceroute。通过 CV(Connectivity Verification)/FFD(Fast Failure Detection)检测可以检测 LSP 的连通性。CV 检测和 FFD 检测的过程基本一致,其不同在于 CV 检测发送 CV报文的频率固定为 1 帧/s 并且不可设置,而 FFD 检测发送 FFD 报文的频率是可以自行定义的。MPLS Ping/Traceroute 为用户提供了发现 LSP 错误、并及时定

3、位失效节点的机制。MPLS Ping/Traceroute 使用 MPLS Echo Request 和 MPLS Echo Reply 检测 LSP 的可用性。MPLS Echo Request 中携带需要检测的 FEC(Forwarding Equivalence Class)信息,和其他属于此 FEC 的报文一样沿 LSP 发送,从而实现对 LSP 的检测。为了更好的理解 PTN,我们就把 PTN 与熟悉的 SDH 的业务层面告警类比一下,与大家共享。1.1.1 PTN 与 MSTP 告警对比对应于业务模型,PTN 的告警分为物理层、数据链路层、Tunnel 层、PW 层、仿真业务层五个

4、层次。对应 SDH 的物理层、再生段复用段层、服务层、路径层。上层功能的实现依赖于相邻下层提供的服务。低层与高层同时有故障产生时,低层故障的消除是处理高层故障的基础,物理层故障引发的告警屏蔽其它层故障引发的告警。SDH 的告警与 PTN 的最根本的区别在于 SDH 的告警都是由字节承载上报的,而 PTN 告警则是由协议控制上报的;但都有其相似之处,如下图:服务层(HO-VC4)路径层(LO-VC12)物理层(Fiber)再生段复用段层(SDH)(SDH开销)Tunnel层PW&业务层物理层(Fiber)数据链路(Ethernet)通过物理层或数据链路层提供净荷路径的传送多元的LO-VC到HO-

5、VC 或者 PWs到PSN tunnels TE/PE之间的净荷传送净荷封装到对应的 Line/Tunnel 层物理层以光或电脉冲的方式处理传送STM-N 帧格式或以太报文通过物理介质传送E1/E3净荷CES/ATM/Ethernet净荷PTNSDH图 28 PTN 网络与 MSTP 告警对比图业务模型中,PW 可类比 VC12、Tunnel 类比 VC4 管道,CES 即电路仿真业务就是传统的E1;告警可划分为业务类告警,系列类通用类告警,下面表格按业务告警,与 SDH 进行类比,各业务层告警对比:MSTP 告警 SDH、PT PTN 告警N 类比结果业务层(VC12 )(ETH/CES/I

6、MA/ATM)TU_AIST_ALOSUP_E1_AISDOWN_E1_AIS 等继承了SDH E1、 ATM、IMA 业务告警的特点PW_DOWNT_A LOSTU_AIS_VC12UP_E1_AISDOWN_E1_AIS 等PW&业务层(ETH/CES/IMA/ATM)服务层(VC4)HP_SLM HP_UNEQ继承了服务层 SDH 告警,新增加了 MPLS Tunnel 类告警MPLS_TUNNEL_LOCVHP_SLMHP_UNEQTunnel 层(Tunnel/ PW / MPLS APS)再生段复用段层(开销)B1、 B2 误码检测告警复用段告警IMA 业务告警继承了SHD 误码类

7、,复用段类告警(线性),增加了多协议标签交换(MPLS)告警,LAG类告警B1、 B2 误码检测线性复用段告警IMA 业务告警LAG_DOWNMP_DOWNETH_APS_LOSTETH_APS_PATH_MISMATCHETH_APS_SWITCH_FAILETH_CFM_MISMERGE数据链路层(MLPPP / STM / LAG)物理层(单板 / ETH 端口/SDH 端口/ E1 口)R_LOSETH_LOST_ALOSLASER_MOD_ERRETH_LINK_DOWN 物理层告警与 SDH 相同,完全继承了 SDH光口、ETH电口、光口的习惯R_LOSETH_LOST_ALOSL

8、ASER_MOD_ERRETH_LINK_DOWN物理层(单板/ ETH 端/SDH 端口/E1 口)1.1.2 常见告警故障处理方法 CES 业务常见告警故障处理方法:序号 告警名称 产生原因 处理方法1 T_ALOS E1 信号丢失,主要上报在支路接口板上; 环回 E12UP_E1_AISDOWN_E1_AIS分别是上行 2M 信号指示、和下行 2M 信号指示,产生原因和 SDH 的相同察看对端是否有TU_LOP_VC12、T_ALOS 或 TU_AIS_VC12 告警。或者 E1 环回方式3MPLS_TUNNEL_LOCV MPLS_TUNNEL_LOCV 为 Tunnel 连通性丢失告

9、警。连续 3 个周期内没有收到希望的 CV/FFD 报文时出现此告警。产生 g 该告警原因 1:物理链路故障。1. 在网管上检查该链路两端网元是否存在单板或光模块相关的告警。若存在,消除这些告警,时,该 TUNNEL 承载的业务已中断,原因 1:往往是下层网络异常引起,例如物理链路故障等,光模块故障原因 2:网络出现严重的拥塞。查看告警是否消除。2. 若告警未消除,查看光纤是否故障,更换故障的光纤。原因 2:网络出现严重拥塞。1. 选择较大的“CC 测试发送周期”的参数值,具体操作见本文的创建维护联盟。2. 检查故障 Tunnel 的带宽占用情况,如发现已满,请增大 Tunnel 带宽配置或消

10、除非法发送大数据量的根源,查看告警是否消除。4TU_AIS_VC12 系统中存在更高阶的告警,如R_LOS、R_LOF、HP_SLM、AU_AIS上游站点存在硬件故障告警交叉板故障对端站对应通道失效按照产生原因点,逐步排除;先看是否有高级别的R_LOS、R_LOF、HP_SLM、AU_AIS 告警,然后看是否存在硬件故障支路板?交叉?最后对端对应通道?需要用到经验法、替换法等。与 SDH 类似业务中断类常见告警原因:光纤、电缆故障、环境温度、误操作设置了光路的环回、误操作更改、保护业务配置数据有误。应急处理时优先恢复业务,排除外部设备的问题,将业务倒换到备用通道,复位单板、单站重启、重新下发配

11、置等。 以太网业务常见告警故障处理方法:序号 告警名称 产生原因 处理方法1 ETH_LOS以太网端口连接丢失,可能原因:以太网端口的电缆或光纤没有连接好;电缆或光纤故障;本端网元接收光功率过低;单板故障。属于物理层故障类,察看物理连接,端口、单板故障;逐一排除。2 MAC_FCS_EXCMAC_FCS_EXC 为MAC 层检测到误码越限告警。软件定时检测MAC 芯片接收字节数和误码字节数,计算误码是否超过门限,超过设置越限门限发出此报警。1:检测是否链路出现故障,维护光纤或网线,查看告警是否消除。2:若告警仍未消除,检测是否存在 DOS 攻击等,隔离 DOS 攻击源,查看告警是否消除。3.若

12、告警仍未消除,是否出现配置环路或物理等问题,解除环路,查看告警是否消除。3 ETH_LINK_DOWN以太网连接错误,端口协商失败;可能原因:端口模式不一致;电缆光纤连接故障;单板故障。对应需要察看和排除端口协商问题,主要关注端口模式,端口速率级别。最后使用替换法检验是否是硬件故障4 FLOW_OVER端口接收流量超限告警;可能原因为实际接收的端口流量大于设定的端口流量限值。增加端口带宽。丢包类故障常见原因:光功率问题、环境温度、数据业务端口协商故障、时钟配置错误、业务流控配置。可通过查看光功率、RMON、丢包率等性能事件解决。 MPLS 保护倒换类告警排除:倒换告警 告警信息 故障原因ETH

13、_APS_TYPE_MISMATCH 保护类型信息不一致1、两端配置的 1+1 或 1:1 模式不一致;2、两端配置的单端或双端倒换的模式不一致;3、两端配置的恢复式或非恢复式的模式不一致;ETH_APS_PATH_MISMATCHAPS 工作、保护路径不一致1、保护组两端设备配置的工作路径、保护路径不一致;2、物理链路上存在有错连;ETH_APS_SWITCH_FAIL 保护倒换失败1、倒换失败;ETH_APS_LOST APS 帧丢失 1、对方没有配置保护;2、保护通道业务中断;1.1.3 以太网业务丢包类故障处理方法业务丢包、错包的可能原因 端口光功率异常或光功率不稳定,这是最常见的丢包

14、原因 时钟未跟踪,或跟踪源不稳定,会导致周期性丢包 Tunnel下一跳端口IP 设置错误(如设置为本端端口,扩容或调整业务时)可能会导致丢包 网络侧发生拥塞,由于现网基本是轻载状态,拥塞可能性较小排查业务丢包、错包的思路: 找出与“有问题的业务”走相近链路的业务,看是否有类似问题,以此缩小范围业务A业务B网元B网元A网元C 网元D 网元E1.1.4 OAM/PING 调试法常用场景:数据业务通断判断维护中,工作难点主要在于如何能够快速有效地排除故障。在众多的故障中,以“业务不通”最为常见。应该如何着手解决呢?首先我们将 PTN 专线业务做成下图所示的分段。 PTN网络关于 OAM 的规划主要涉

15、及:MPLS OAM、以太网端口的 OAM。适用于故障定位到单站,主要用于检查网络连接是否可达,以及分析网络什么地方发生了故障。 常用 OAM 排障步骤 1Tunnel OAM如果业务A有丢包,业务B不丢,则问题应该在网元A与网元C之间NODEB 接入侧PTN UNI 接入侧PTN NNI透传设备(PTN,波分设备等) 核心侧PTN NNI 核心侧PTN UNI RNCTunnel配置PW配置 PW配置业务配置 业务配置红色标识部分是维护关键区域, 因为这一区域的网元多, 外部因素多 (光缆,光模块, 波分设备等) , 需考虑业务扩容,业务归属关系调整排障的主要工具: Tunnel OAM使用

16、方法:到两侧(接入侧、核心侧 )网元查看Tunnel OAM状态结果分析: 两侧Tunnel OAM状态都是“ 远、近端可用” - 该区域基本没有问题 Tunnel OAM检测有任何缺陷上报- 根据“LSP 缺陷位置” 可锁定故障位置 查MPLS_TUNNEL_LOCV告警: 含义:Tunnel链路中断 解决措施:需要检查Tunnel链路的连通性,发起LSP Ping确认故障节点/链路,并观察Tunnel链路中其它节点的相关告警信息,需启动OAM 功能。 排障步骤 2LSP 故障位置分析红框内的LSP缺陷位置指示了问题网元的 LSR ID (GCP NODE ID)在LSP缺陷位置及相邻网元范

17、围内 , 进一步排障步骤:检查光纤原因检查业务告警 ETH_LINK_DOWN, ETH_LOS, R_LOS等链路异常告警 IN_PWR_ABN等光功率异常告警 HARD_BAD、BUS_ERR 、BD STATUS等硬件异常告警检查配置 源宿节点是否正确 相邻网元的出入标签是否一致 下一条端口IP是否正确其它可能原因: 源宿节点是否正确 相邻网元的出入标签是否一致 下一条端口IP是否正确查看各端口收光功率的当前/历史性能是否过低或过高: 有可能端口收光功率接近但未超过阈值,导致无告警上报,所以需要查性能 有可能端口收光功率不稳定,导致当前性能值正常,所以需要查历史性能 下一条端口IP是否正

18、确查看各NNI端口的设置:ETH OAM的简易操作步骤:注:只须输入对端UNI端口MAC地址就可以启动测试了,其他参数可用默认A.两端网元发起LB测试,用于命令触发的连通性检查,对以太网业务执行不中断业务环回检测(LB),可以检验业务的连通性情况,以便定位和修复故障。OAM 功能产生的告警概览:MELS OAM MPLS_TUNNEL_LOCV告警含义:Tunnel 链路中断解决措施:需要检查 Tunnel 链路的连通性,发起 LSP Ping 确认故障节点 /链路,并观察 Tunnel 链路中其它节点的相关告警信息。Init(初始 )状态 Ingress 端没有使能 OAM 或者 Tunne

19、l 链路中断;Available(可用)状态 Tunnel 状态正常;MPLS 状态Unavailable(不可用) 状态Tunnel 状态不可用,需要检查 Tunnel 链路的连通性,发起 LSP Ping 确认故障节点/链路,并观察 Tunnel 链路中其它节点的相关告警信息ETH_CFM_LOC 告警 含义:ETH 业务中断解决措施:需要发起 ETH LB 进行故障确认,发起 LT 进行故障定位;对于 MPLS承载的 ETH 业务,需要观察 MPLS Tunnel 的连通性。ETH_CFM_RDI 告警 含义:对端检测到 ETH 业务的告警后的回告指示解决措施:需要在对端进行告警确认和排

20、查操作;ETH_EFM_DF 告警 含义:ETH 链路发现失败解决措施:检查两端的 ETH Link OAM 的配置是否一致,检查 ETH 链路的连通性;ETH OAMETH_EFM_EVENT 告警含义: ETH 链路存在误码解决措施:对端网元检测到端口有误码,需要在对端网元确认其接收链路是否正常;1.1.5 环回逐段定位法常用场景:CES 业务、SDH 业务出现故障时,在支路或线路环回,定位故障原因到单站,环回操作会导致业务中断。仅在 SDH 类业务使用;注意:数据类定位的方法,为避免环回造成的网络风暴,使用 ETH OAM 功能,维护过程中不使用环回。SDH 接口在维护中使用内环回和外环

21、回。PDH 接口使用内环回和外环回两种环回方式。网管中环回界面与 SDH 近似。1.2 PTN 网络例行监控网络维护工程师在维护 PTN 网络时,比 MSTP 网络更关注 RMON 性能等数据T2000 网管上日常维护项目表:维护责任人 维护地点 维护项目 周期检查网元和单板状态 每天浏览全网告警 每天浏览异常事件 每天浏览当前性能 每天浏览 RMON 统计组性能 每天检查光接口的光功率 每天浏览历史性能 每周浏览 RMON 历史性能 每周(端口流量统计、端口丢包、业务流统计)备份 T2000 的 MO 数据 每周网管操作员 网管中心备份网元数据库 每周备份网元数据库:PTN 网络在面对灾难性故障时,单主控板失效、数据库损坏等故障时,快速恢复业务方法是数据库下载恢复。网管数据库备份工具中,可设置定期任务,自动定期上载网元数据库到网管电脑中。另外在每次大业务量配置(包括单站配置以及全网配置)修改后,都要进行一次网元数据库的备份操作,保证备份数据库最大限度的与网元一致。备件单板更换:SDH 设备的备件单板,需定期拿出来,随现网进行升级更新,而 PTN 的单板,插入到子架中,能够自动向主控软件包申请,更新自身的单板软件,节省了备件单板维护的工作。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报