收藏 分享(赏)

网络流量、应用性能分析、故障定位分析方案.doc

上传人:精品资料 文档编号:11253002 上传时间:2020-03-03 格式:DOC 页数:48 大小:16.04MB
下载 相关 举报
网络流量、应用性能分析、故障定位分析方案.doc_第1页
第1页 / 共48页
网络流量、应用性能分析、故障定位分析方案.doc_第2页
第2页 / 共48页
网络流量、应用性能分析、故障定位分析方案.doc_第3页
第3页 / 共48页
网络流量、应用性能分析、故障定位分析方案.doc_第4页
第4页 / 共48页
网络流量、应用性能分析、故障定位分析方案.doc_第5页
第5页 / 共48页
点击查看更多>>
资源描述

1、 北京神州数码有限公司 第 I 页XX 省农信社基于产品的网络流量、应用性能分析、故障定位分析项目测试报告2019 年 6 月 11 日2目录3411 概述随着大量新兴技术和业务趋势的推动,用户的网络架构、业务系统和数据流量日趋庞大、复杂。为了保证网络和业务系统运行的稳定和畅通,我们需要对网络及业务系统进行全方位监测,以确保网络及应用系统可以正常、持续地运行。应用性能管理是一个新兴的市场,其解决方案通过监控应用系统的性能、用户感知,在应用出现异常故障时,帮助用户快速的定位和解决故障,其标准的需求如下: 通过网络流量分析工具,掌握各级网络运行的趋势和规律,主动、科学地进行网络规划和策略调整,将网

2、络管理的模式从被动变为主动: 通过网络流量分析工具,实时监控网络中出现的非法流量,及时采取管控措施,保障应用系统的安全运行; 应用系统出现问题(如运行缓慢或意外中断时, )通过网络流量分析工具可回溯历史网络流量,快速找出问题的根本原因并及时解决。 网络拥堵时,通过网络流量分析工具快速判断是正常应用系统占用了带宽还是异常流量占用了带宽,立即执行相应、有效的控制措施。 从最终用户感知的角度,提供多维度的应用性能监控,实时掌握应用系统的性能状况; 724 小时实时监控各区域用户的真实使用体验,及时发现用户体验下降,并及时作出相应的处理,提升用户满意度。 当故障发生时,快速定位故障域,缩短故障分析时间

3、,降低故障对最终用户造成的影响,提高系统的运维质量。年 APM 市场全球分析报告与魔力象限分析,Riverbed(OPNET)公司已经成为全球这个领域的领导者。OPNET 公司的客户群体非常广泛,国内的用户包括中国移动、中国网通、中国电信、信息产业部电信规划研究院,中国农业银行总行,民生银行,新华人寿,中国海关总署,银河证券,国信证券,电信设备供应商中包括华为、大唐电信、摩托罗拉、中兴电子及西门子等。22 测试方案OPNET 网络应用性能监控设备,及 OPNET 应用性能深度分析,提供了业界最优秀的最终用户体验监控与预警、应用 SLA 监控与违反预警、应用性能瓶颈定位、应用性能问题根源分析、未

4、知/异常流量发现、流量成分分析、流量流向分析、及应用预部署仿真系统。XX 省农信社的应用服务器目前主要部署在核心机房,大致分为 3 个区域,生产区域、广域网区域、网银区域。当应用出现问题或柜面用户出现无法使用业务系统时很难快速确定问题出现在网络问题、服务器问题还是应用本身问题。为了能够快速了解客户端运行业务的性能问题的变化状况,快速了解应用可能出现的问题区域,建议分别在 XX 省农信社生产区域、广域网区域、网银区域的核心交换机上通过端口镜像的方式将流量监控起来,当出现应用性能问题时能够通过关联分析了解整个应用流程的性能变化状况和快速提取出现性能问题时的故障现场,快速了解出现网络异常和网络性能问

5、题的原因,快速确定故障域。同时快速了解 XX 省农信社整个交易的性能状况,及时发现可能存在的问题,预警可能出现的性能问题,主动进行交易系统的应用性能管理,避免不必要的用户投诉。当用户出现应用投诉时,能够及时利用这套监控方法重现用户投诉时的故障现场,及时发现出现用户投诉时的客户的访问行为,分析并确认客户投诉的根本原因,提升客户满意度和交易系统的应用性能。根据 XX 省农信社的要求,本次 Opnet 提供的测试设备为 ARX3700,ARX3700 监控采用非侵入式的监控方式,通过交换机端口镜像的方式在网络上进行流量采集实现端到端的应用性能分析和故障定位。并通过 ATX 深度分析确认出现故障原因的

6、根本原因-如客户端、网络、服务器还是服务器上的页面处理慢、应用交互次数多等。ARX/ATX 提供了业界最优秀的最终用户体验监控与预警、应用等级 SLA 监控、SLA 违反预警、应用性能瓶颈定位、应用性能问题根源分析、未知/异常流量发现、流量成分分析、流量流向分析、及应用预部署仿真系统,保障银行各项关键业务的运行通畅。根据要求,测试要求达到下列目标: 对于不同的业务交易提供实时的业务流量和业务性能变化的状况,快速了解是否已经出现应用性能瓶颈. 提供业务系统整个流程流量原始裸数据包保存,能够保证快速提取相关问题的原始数据包。 对于 WEB 业务交易的性能变化状况和业务交易性能提供统计报告,包括交易

7、的交易量,交易的响应时间,交易的 4xx 错误,交易 5xx 错误,慢的交易数量及页面的大小等参数,了解整个业务的交易情况. 设置主动运维的报警,自动报警出现交易性能问题的交易,自动保存故障前 5 分钟的数据,方便运维人员及时提取相关的报警数据,回放故障现场的数据,确定故障的原因.3 针对投诉的客户能够重现客户当时访问的交易并提取客户投诉时间段的原始数据,根据原始数据进行客户投诉现场的分析确定客户投诉的原因. 利用 RTCC-响应时间组成图,快速确认响应时间延迟发生的部位,提供依据,对根本原因进行排查; 提供自动化端到端诊断,包括瓶颈的发现、解决或优化建议; SLA 服务质量-利用 SLA 服

8、务水平,掌握各个不同的区域客户的运行状况,随时能够了解不同区域的用户的网络质量的变化和业务质量的变化状况,对随时出现故障的影响区域,进行有效的主动管理和故障分析及定位. 网络整体服务质量-利用 Network performance 仪表板查看网络性能监控,查看网络上的延迟和重传,保证业务健康运行. 网络上应用的分布状况及服务质量-了解整个系统应用流量和性能的变化趋势,了解整个系统的日常基准,随时自动追踪流量和性能变化,报警可能出现的网络攻击和异常的变化,主动进行分析和解决出现的异常,按天、周及月等时间跨度进行流量统计. 服务器的服务质量-利用 Slow Server-IP 仪表板查看性能差的

9、服务器(交易处理较慢的服务器 IP 地址) 。自动记录不同业务组中的服务器对外提供的服务质量,快速定位出现应用性能问题的服务器,及时解决问题,保证正常的业务服务。如果出现用户投诉的现象,利用分析软件确定相应时间慢的瓶颈,确定优化的步骤和措施. 网络异常攻击和蠕虫防病毒监控-利用 Worm hunt 仪表板(发现三次握手失败的连接) ,自动记录出现网络连接失败次数高的应用和通讯对。了解网络上连接数的变化状况,避免由于网络攻击造成的对业务的影响,快速定位攻击的来源和对象,避免业务损失. 网络线路延迟监控-利用 High Network Latency-IP 仪表板(延迟比较长的 IP) ,自动统计

10、业务组的网络延迟,网络延迟最大的组为 Internet,延迟最大的网络区域和 IP,查找延迟大的原因,发现潜在的网络延迟区域,发现潜在的网络拥塞,主动进行相关的网络故障分析和故障排除,保证网络正常运行. 网络丢包率监控-利用 High Packet Loss - IP 仪表板(丢包较高的组别) ,可以看到各个子网的丢包变化状况。查看网络上丢包状况,及时定位丢包率高的网络,修复出现的网络故障,保证业务健康运行. 内置智能告警-利用内置的智能告警, 自动识别异常告警和用户自定义的阀值,发现网络上出现异常的现象,主动进行网络上的故障分析和故障定位. 事件驱动的数据采集和保存-利用 Rolling B

11、uffer 和事件驱动的网络全包数据采集能力,记录全部的数据全包和事件驱动的全包数据采集保存,方便客户进行事后的故障现场分析和故障定位. 43 Opnet 测试情况汇总根据 XX 省农信社应用的特点及实际情况,分别在生产区域、广域网区域、网银区域依次部署 ARX3700 设备。根据用户的要求,尽量不影响现有的应用和服务器性能状况,采用无代理监控的方式进行日常应用性能的监控。ARX3700 设备采用非侵入式、全透明的监控方式,是透过本身的监控端口,收集从核心交换机镜像的流量来实现,不需要在任何服务器安装代理服务。此外,ARX3700 设备配置一个 10/100/1000 电口,作为远程管理、登录

12、监控界面时使用,并能实现带外管理。因此,设备对网络不造成任何影响与干扰,安装时不中断网络,不对任何网络设备造成压力,也不造成任何延时,对网络及业务零影响,能够在一般的机房环境中正常执行监控工作。ARX3700 设备本身带有 4 个监控端口,当镜像的端口数量超过 4 个时可以采用流量聚合设备进行流量的合并,然后将合并后的流量接到流量监控设备上进行相关数据的分析和故障定位.。监控设备的接入方式采用端口镜像的方式实现,镜像是由交换机的背板(backplane)进行。因此,镜像完全不影响源镜像口所在的板卡,不影响目的镜像口所在的板卡,也不对有关的板卡造成额外压力或延时。因为镜像是在背板进行,背板速度一

13、般在100Gbps 以上,因此,对设备本身的影响微不足道.3.1 生产区域3.1.1 网络质量监控3.1.1.1 网络总体性能监控查看网络上总体性能的变化状况,了解各个部门的网络占用状况和应用性能的变化状况,制定合理的网络升级计划,保证业务健康运行。设备安装上架并配置完成后,即可从 ARX 的监控界面中查看整体网络流量状态,可监控的参数包括包括吞吐量、RTT、丢包(入站、出站) 、TCP 数等指标。5如图发现 9:00-10:00 之间有较高的吞吐量,选中进行分析。双击打开详细信息,深入分析得出,该时间段内吞吐量达到673.1.1.2 网络连接数监控了解网络上连接数的变化状况,避免网络攻击,快

14、速定位攻击的来源和对象,避免业务损失。在 ARX 的管理界面中,可查看网络流量中的 TCP 连接状态,可 TOP 显示出连接数最频繁的ip 通信对及通信端口、协议等信息。利用 Worm hunt 仪表板(发现三次握手失败的连接) ,自动记录出现网络连接失败次数高的应用和通讯对。3.1.1.3 网络性能监控查看网络上的延迟和重传,保证业务健康运行。ARX 的管理界面,可实时展示出,网络流量中,延迟最高的 IP 通信对,及应用的名称。登录 ARX 的 Console 管理界面,利用Network performance 仪表板(识别关于某个应用、组、IP 等在 ARX 部署位置两边的网络延迟和重传

15、)可以看到各个子网的网络性能变化状况。利用 RTT 时间可以看到网络的服务质量的变化。83.1.1.4 网络带宽占用监控了解网络上应用带宽的占用状况,合理分配网络资源,避免不必要的资源浪费,保证业务健康运行。通过 ARX 的管理界面,实时展示出网络中,产生流量最大的 IP 通信对及使用的协议、端口信息。登录 ARX 的 Console 管理界面,利用 Bandwith hogs-ip 仪表板(流量比较多的主机),自动记录流量大应用和流量大的通讯对。93.1.2 应用服务质量监控3.1.2.1 用户体验时间监控功能了解系统一周内的变化状况,根据不同的交易时间设置交易响应时间的报警,获取交易故障时

16、间的故障数据,便于事后的故障分析和故障定位,进行主动的事件管理和故障分析及故障解决。对较为重要/频繁的应用进行定义。定义完成后,即可在 ARX 的管理界面中,查看用户访问应用的性能状态。登录 ARX 的 Console 管理界面,查看 RCTT 交易响应时间组成图,可以看到不同交易的响应时间分布状况。3.1.2.1.1 信管响应时间在应用表格 中选择信管业务,然后点击 RTCC 图标,产生信管业务的响应时间构成图。3.1.2.1.2 财管响应时间在应用表格 中选择财管业务,然后点击 RTCC 图标,产生财管业务的响应时间构成图。103.1.2.2 服务器响应时间监控查看网络上响应时间慢的服务器

17、,主动进行服务器故障的定位和排差,保证服务器提供正常的业务。对服务器区的服务器进行定义后,即可在 ARX 的管理界面中,实时展示各服务器的响应性能状态。利用 Slow server-ip 仪表板(交易处理较慢的服务器 IP 地址) ,自动记录不同业务组中的服务器对外提供的服务质量,快速定位出现应用性能问题的服务器,及时解决问题保证正常的业务服务。3.1.2.3应用性能监控掌握网络上运行应用的变化状况,制定合理的网络应用服务质量,主动进行应用性能管理,避免不必要的客户投诉。113.1.2.3.1 关键业务-信管123.1.2.3.2 关键业务-财管3.1.2.3.3 网站性能分析利用 Web T

18、ransaction Dashboard 仪表板,自动统计流量大的前几个 Web 应用的性能状况,了解不同应用的性能变化状况.ARX 的管理界面可在一个界面中展示,当应用响应异常如应用出现大量 HTTP 500 报错时,主动发出告警。利用 Web Transaction Dashboard 仪表板,自动统计流量大的前几个 Web 应用的性能状况,了解不同应用的性能变化状况 .13最慢页面访问平均时间为 2.217 秒,网址为。展开看每一次用户访问,最慢的一次访问发生在 2013 年 6 月 26 日上午 11 点 13 分 36 秒,用户 ip 地址为 11.24.199.121, 页面打开时

19、间高达 83.22 秒。对该用户的访问情况进行故障现场回放,利用 AppTransactionXpert 分析解码,可得网络传输占据了总时间的 69.9%,14应用医生分析可得,潜在的瓶颈为,网络传输瓶颈,重传以及包乱序是导致时延较大的主要原因。15另外,外部网站部分网页有较多的 HTTP400 错误,集中在、等页面:附:常见的 HTTP400s 错误16401-访问被拒绝。403-禁止访问404-未找到405-用来访问本页面的 HTTP 谓词不被允许(方法不被允许)406-客户端浏览器不接受所请求页面的 MIME 类型。407-要求进行代理身份验证。412-前提条件失败。413请求实体太大。

20、414-请求 URI 太长。415不支持的媒体类型。416所请求的范围无法满足。417执行失败。423锁定的错误。3.1.2.4 未知应用监控了解网路上还有哪些正在使用的端口和通讯对,记录和研究这些端口和通讯对,保障正常应用的带宽使用和性能.ARX 设备的管理界面可显示出,网络中所有未知应用的 IP 通信、通信端口、流量大小等信息。利用 Other Application Discovery 仪表板,自动记录网络未被定义的应用和通讯对,确认异常流量,剔除异常流量,避免不必要的资源浪费。173.1.3 故障深度分析功能3.1.3.1 用户行为重现ARX 与 ATX 结合使用,可以对较慢的应用进行

21、深入解码分析:18上图中最长的延迟为 30 秒,执行的操作是:Connection 8: 11.32.122.39 11.0.2.80 (2 frames)POST /cognos8/cgi-bin/cognos.cgi HTTP/1.1 Accept: */* Accept-Language: zh-cnReferer: http:/11.0.2.80/cognos8/cgi-bin/cognos.cgi Content-Type: application/x-www-form-urlencoded Accept-Encoding: gzip, deflate User-Agent : Mo

22、zilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727) Host: 11.0.2.80 Content-Length: 2681 Connection: Keep-Alive Cache-Control: no-cache Cookie: cam_passport=101:a9466f11-f92a-9698-abd1-8a776fd19214:18446744070027857162; cea-ssa=false; usersessionid=AQgAAAAKgNNRAAAAAAoAAAByIvvHN

23、EodoBXjFAAAAIwKzgPREHb9ysXTZnsSMzDrE9+7FAAAAAbv2L3N+asxI5vFUP1cyGwCl/M4; CRN=listViewSeparator%3Dnone%26showOptionSummary%3Dtrue%26contentLocale%3Dzh-cn%26displayMode%3Dlist%26format%3DHTML%26showWelcomePage%3Dtrue%26skin%3Dcorporate%26automaticPageRefresh%3D30%26productLocale%3Dzh-cn%26linesPerPage

24、%3D15%26timeZoneID%3DAsia%252FShanghai%26columnsPerPage%3D3%26showHiddenObjects%3Dfalse%26useAccessibilityFeatures%3Dfalse%26; userCapabilities=d%3B8f0700fa%26ARQAAACMCs4D0RB2%2FcrF02Z7EjMw6xPfu%2Fh5dbRAvYoly5avzEsTVpoDVVtr; cc_session=s_cc:|s_conf:na|s_sch:td|s_hd:sa|s_serv:na|s_disp:na|s_set:|s_de

25、p:na|s_dir:na|s_sms:dd|s_ct:19sa|s_cs:sa|s_so:sa|e_hp:CAMID(*22CBS*3au*3aadmin90603*22)|e_proot:*e5*85*ac*e5*85*b1*e6*96*87*e4*bb*b6*e5*a4*b9|prootid:i27EA3A4AE2E241278C52DFF12459DB3F|e_mroot:*e6*88*91*e7*9a*84*e6*96*87*e4*bb*b6*e5*a4*b9|mrootid:i7CAEC246686C4EC69C6B420B052A5350|e_mrootpath:CAMID(*2

26、2CBS*3au*3aadmin90603*22)*2ffolder*5b*40name*3d*27*e6*88*91*e7*9a*84*e6*96*87*e4*bb*b6*e5*a4*b9*27*5d|e_user:admin90603|cl:zh-cn|dcid:i27EA3A4AE2E241278C52DFF12459DB3F|show_logon:true|uig:|ui:h1h2h3t4|write:true|eom:0|pp:18446744070027857162; cogbktbsug_cctab=mtoc我们可以重现图片为如下,这样,就知道用户当时产生的页面响应时延高达 30

27、 秒的原因,最大限度的还原了故障现场,并找到了影响性能的根因,客户端请求一个 cognos.cgi 的文件,文件打开是一个代码包,如下20当然,为了保证用户信息的私密,我们也可以采取只采集数据包头,不采集 payload 信息,以及提供抓包数据库的访问权限密码控制等方式,确保用户信息不被泄漏。3.1.3.2 响应时延构成图当应用系统出现性能问题时,管理员最希望知道的就是时延发生在哪里?而响应时延构成图则是回答这个最关键问题。可在 ARX 管理界面中,针对用户关心的服务器进行流量和性能分析:3.1.3.3 应用瓶颈自动分析ATX 可自动对故障现场的数据包进行分析,并直接指出性能瓶颈所在。可在 A

28、RX 管理界面中,找出异常的 IP 通信对,如时延较高的 IP 通信对,并通过 ATX 的应用引擎,找出其瓶颈所在。用 ATX 打开故障现场数据并点击应用医生按钮,之后即可查看瓶劲分析报告。本次测试中发现 10.150.60.12 和 10.150.180.93 的响应时间达到 12.3 秒,系统自动把响应时间分解成客户21端时间、网络传送时间和服务器处理时间,图中看到大部分时间花在 10.150.180.93。3.1.3.4 中文故障报告自动生成故障解决后,需要完成故障报告。ATX 在打开故障现场数据包后,可自动生成详细的中文故障分析报告,该报告支持内容的自定制,可自己选择报告需要写入的内容

29、,报告的格式支持word、 html 等多种格式。在分析异常的数据后,可通过 ATX 软件自动产生中文的故障分析报告。用 ATX 打开任意故障现场数据后即可生成中文报告。223.1.4 异常流量分析3.1.4.1 流量分布分析通过关键业务监控视图,可以看到宁德、泉州、省联社有使用稽核系统业务,可以看到宁德使用稽核系统的流量大小,响应时间等信息:233.1.4.2 流量分析3.1.4.2.1 泉州流量分析地址段为 11.24.0.0-11.27.255.255 的终端,从 2013-06-27 14:21 到 2013-06-27 15:21 的流量分布:24253.1.4.2.2 宁德流量分析3.2 广域网区域3.2.1 网络质量监控3.2.1.1 网络总体性能监控以下为从 7 月 11 日从 7 月 18 日广域网区域一周的流量情况:26

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 解决方案

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报