1、分布式网络流量预测模型的精度研究孙秀娟1,金民锁2,陈孝国1(,黑龙江科技学院数力系 哈尔滨,1 5 002 7)(2黑龙江科技学院信息网络中心 哈尔滨,、1 5 002 7)摘要:网络流量模型是网络性能评价、网络协议设计、网络规划等的基础。本文设计基于分布式网络测试的时间与相关流量模型的方法,并采用该流量模型预测网络流量。文章提出网络流量预测精度的数学定义,网络测试实验表明,我们的流量模型具有更高的精度,并适用实际运行的网络环境。关键词:流量模型;网络测试;流量预测;预测精度AK;h麓ct:Netwo呔嘣cmodel is me base of netw砸k pId碗皿锄ce e嘲删。玛ne
2、tw础pDtocol dt嫡萨and net、)l,o伙designA嘶渊删柚etod赋serialis觚basedon删II螂愀嘣cis毓c啦断nle倘c嘞黼mdataofexp蝴of删IIe删删蜘s1atme磷c删llasmeadvantage of雠细瑚咖删sion蝴is蛐觚蛐1he蛐c删is唧s蛐let0眦dad删咖幽:。Key触:删;N酗Vo呔m懿珊e唧t;蛳向=ec蝴;F0帕碱舯ecisjon中图分类号:TP3092 文献标识码:A 文章编号:1 00卜9227(29)06000303O 引言流量模型是网络性能分析和通信网络规划设计的基础,精确的流量模型对设计高性能网络协议、高效网
3、络拓扑结构、业务量预测与网络规划、高性能价格比的网络设备与服务器、精确的网络性能分析与预测、拥塞管理与流量均衡都有重要意义。在通信网络技术发展的3 O年里,流量模型研究一直倍受人们关注。7 O年代和8 O年代的早期,人们主要借鉴PS TN的流量模型,用PD括sD凡模型来描述数据网络的流量模型1,我们一般称其为经典流量模型,基本假设为:(1)外部数据源产生流量的时问问隔为指数分布,即数据源到达过程为一尸D括sDn过程,令G(f)f I=1,2,N,G(f)为数据包i和i+1的问隔时间;(2)数据源一次产生流量的长度服从指数分布,令H(f)I=1,2,N,H(f)为数据包i的数据长庞(3)G(f)
4、和H(f)相互独立。假设(1)随着数据源的增加,累计流量将趋近一个平均流量值,但实验测试的结果并不是如此旧1。Le肠nd等人通过对LAN的流量分析1和耐f1,口,lJ幻等人对WAN流量的测试分析。独立发现流量的自相似性。90年代以来网络节点数的指数式增加。和新的应用(例如VoD,VoIP等)出现增加了网络流量特征化的困难,特别是不同的网络应用具有收稿日期:2 0 0 9062 9作者简介:孙秀娟(1 9 8 o一),女,黑龙江省鸡东县人,硕士,讲师,主要研究方向为数论与数理统计。基金项目:哈尔滨市青年人才科技创新人才项目(Rc2 010QN0 09 01 6);黑龙江省教育厅科学技术面上项目(
5、11 5 4l 31 6)。不同的流量特征,wwW、FTP、voD、voIP等流量特征和QoS需求的差异以及不同比例流量迭加使得传统P S T N统计流量特征不再适用分析数据通信网络流量。在数据通信网络技术发展的2 O多年以来,网络研究者意识到统计模型越来越不适合表示数据通信网流量特征,一直在试图描述精确的数据通信网流量模型L 8|,但还是未能理解数据通信的流量行为及其造成这种行为的原因与影响因素1。c,“z等人根据流量的突发性特征,采用非概率统计的方法建立一个突发性约束的流量模型,完全不同于传统的流量分析方法,他的基本模型可以描述为:假设尺(r)表示,时刻网络的流量速率,r R(f)表示在x
6、,y时段网络的数峨据包数,则存在盯o并且po,满足f只(f)盯+p(yx),即实际网络的流量必然满足突发性约束。显然盯为突发流量,p为平均流量。cr“z根据网络(盯,p)约束还计算了网络延迟上界和网络单元缓冲区大小上界等问题,从而避免传统基于概率统计的网络分析方法,描述各种不同组网技术、不同应用的网络流量特征。但是Cr“z使用突发性约束(口,p)描述网络的特征,给出了网络突发流量上界和平均网络流量的上界。本文试图对突发流量和网络平均流量加上时间特征,解决以下两个问题:(1)任意时刻的网络流量预测;(2)特定时刻网络性能分析。我们在对具体网络进行测试的基础上,推出了一个网络流量预测和性能分析的方
7、法,以预测某个时刻的网络流量、延迟及其延迟上界,并定义了预测的精度,实际网3 万方数据分布式网络流量预测模型的精度研究孙秀娟,等络测试实验表明,采用该网络流量模型的预测方法具有较 接收和发送字节的速率T=(劬20c把招+方移“妣把括)高的预测精度。 f (1)1 流量数据的采集网络流量的统计+般采用两种方法:在线数据包过滤统计方法(例如M,砌自弦r和Agf饥f觑幼7l舀A咖洳r)和基千sNMP MlB(simple Ne撕ork Mnnngemem Protocol Mnnnge-,lP,lf加励丌竹口砌,l B口s已)采集的方法。我们采用脚采集网络设备M,B的方法,设计了M,B采集程序,把需
8、要的参数存放在数据库中。趴P是由腰玎提出的,随着TCPI P成为事实上的协议标准而广泛使用。sMP主要由三部分组成:管理者、代理和M佃。肘z8遵从踟“(勋Wcm旭D,肘an以ge-mP,lf砌厂DM日“D,1),存放设备或者网络运行状态的信息。管理者使用G已f尺Pg“Psf、GPfPxf尺P口“esf、sef尺P留“已sf、G已暖P印DnjP、mp等操作通过代理获得和设置M舾的参数值,基本原理如图1所示。I!竺竺竺竺F飞丁、竺声L竺!y图1甜黝噘理图流量相关的主要采集参数有接口组:ifInoct et s:接口发送的字节数,指该接口接收的总字节数,在达到最大值时自动清零;ifoutoctets
9、:接口接收的字节数,指该接口发送的总字节数,在达到最大值时自动清零;ifInUcastPkts:输入的单播包数,是累计数目,指该接口接收的单播数据包数,在达到最大值时自动清零,可以由此参数统计出在某时问段该接口接收到的单播数据包数和接收速率;i foutUcastPkt s:输出的单播包数,是累计数日,指该接口发送的单播数据包数,在达到最大值时自动清零,可以由此参数统计出在某时间段该接口发送的单播数据包数和发送速率;ifInNUcastPkt s:输入的非单播包数,是累计数目,指该接口接收的非单播数据包数(组播和广播),在达到最大值时自动清零,可以由此参数统计出在某时间段该接口接收的非单播数据
10、包数和接收速率;i foutNUcastPkt s:输出的非单播包数,是累计数目,指该接口发送的非单播数据包数(组播和广播),在达到最大值时自动清零,可以由此参数统计出在某时间段该接口发送的非单播数据包数和发送速率。进一步我们可以比较单播和非单播的数据包发送和接收的比例。因此,接口数据传输速率(b p s)和数据包传输速率(pps)为:4发送和接受数据包速率=(f厂,lUc日JfP七fs+蚵nM地晓,尸虹,+枷沈砸t陇件堀悖U嘲炉足捃)f (2)我们对中科院计算所办公网络系统进行了监视,考虑到监视过程中对网络流量产生的影响,我们每5分钟对各个网络设备进行一次肘j曰数据采样。图2显示了采集的流量
11、情况。2 模型建立本节专门针对接口(链路)接收和发送数据的速率(bps)建立流量模型。Hellerstein等人研究了web server单位时间内接收到HTTP操作请求数(httpops),考虑影响操作请求数的因秦一天中的时刻(t imeofday)、星期几的影响(dayofweek)以及月份(month),根据测试的历史数据采用统计的方法建立流量模型,对未来的流量值进行预测。我们借鉴该方法把链路传输速率分为趋势传输速率分量砭,)和周期性传输速率分量A“)(不变分量),如(3)式所示。瓦,)=Atf(f)+(f,) (3)其中瓦,(f,)表示链路1在链路被开始测试后的第j个星期的星期k(例如
12、星期一)的i时刻的传输速率(bps),K,(f,J)第j个星期对传输速率影响因素(趋势因素),A“)表示去除趋势发展因素外的周期性传输速率。K。(f,J)暂时考虑和时刻无关,我们采用(4)求解K,(f,),并由函数拟合进行未来K:(f,)的预测。24姆600,出 243600,圪,(f,)=互,(f,)f一瓦,(f,o)f (4),=l #l由式(3)和(4),只要求取A。,(f),则网络传输速率砭。(f,)可知。以下我们将讨论A“(f)。定理1:对于任意的通信链路1,任意的一段时间(x,y),一定存在非负常数(6,p)满足I 4,万+p+(xy) (5)其中,17 4,表示(x,y)时间段的
13、周期性网络流量,即实际网络流量减去历史增长趋势的网络流量。证明:假设链路1的极限传输速率为B(b p s),例如Fast Ethernet极限传输速率为100Mbps,由(3)式知A“(f)2砭,J)一Kz“,歹),14。(疋,一圪)(一K,r)一x)令p=p一圪,易知(5)成立。假设J,一oo,由(5)知,p大于平均传输速率;假设y专x,由(5)知,6大于网络的突发流量。因此,我们只1,要求取最小的(6,p),即可得I4,的上界,并由(3)式估计预期最大的网络流量。万方数据自动化与仪器仪表2009年第6期(总第146期)假设一天中我们以时间问隔为f(sec)采集MIB参数,由(1)式得到系列
14、的传输速率砭。(J,_),砭,(2,-),瓦,(243600“),其中瓦:(i,-)意义同(3)式。由(3)、(4)式易得Atf(J,),A“(2_),”Atf(243600f力。利用(6)求取不变链路传输速率平均值。 图4实际流量变化曲线万= 4彤,)铆243600,) (6)万在i时刻与实际不变链路传输速率A“(f,)的差值为:万t,(f,J)刁4t,(f,J)一万 (7)万=坑,(j,)脚 (8)J=】定理2:(万,万)为(万,J口)的无偏估计。由数理统计易证。3 流量预测实验为了验证我们网络流量模型的精度,我们以时间间隔为t=300s采集路由器的接口MIB参数,采集的时闻为5月7日到6
15、月l 1日。图2所示为若干日期的流量分布图。采用我们的流量模型和文献1 0中的流量模型预测6l 8日的流量变化图。图2 24小时流量变化曲线为了衡量模型的精确性,我们定义网络传输速率的估计误差。定义1:网络流量预测精度:口:I瓦彤J)一毛(f,川正肛舭100,其中瓦。(f,-)为实际网络传输速率,露,(f,)为估计网络传输速率。定义2:平均网络流量预测精度:网络流量估计精度的数学期望,即石:E(卵)。我们以平均网络流量预测精度来评价预测流量和实际流量的差距,即网络流量模型的准确性。根据图2的测试数据我们预测的6l 8流量变化曲线如图3所示,平均网络流量预测精度为724;文献10中预测的流量变化
16、曲线预测为64。图4为实际测试的流量变化曲线。我们的流量模型具有更高的网络流量预测精度。图3预测流量变化曲线4 结束语高性能的网络协议设计、网络设备的设计和制造、网络性能评价、网络负载均衡、网络路由策略与算法等必须依靠精确的网络流量模型。我们采用实际网络测试的方法建立基于时间相关的网络流量模型,并应用该模型进行运行网络的流量预测,实验表明,我们的模型具有更好的网络流量预测精度,该模型已用于我们的网络监控系统中。参考文献l EFuchs and PE丁ackson,“Estimates of Distributions ofRandom variables for certain卿ter C。_
17、砌unication Trafficdels,C伽吐of AC瓯v0113,12,Decemberl970,pages7527672 DEDuffy,AAMcintosh,MRosenstain and WWillinger,“Statistical a阮lysis f0 cCSNsS7 Traffic Data fr0Working cCS SubnetWorks_IEEE Journal of Selected Areas inCo呲unication,V0112,3,April 1994,Pages5445513 WELeland驵STaqqu,WWillinger and DVWils
18、on,“011 theSelf_Siilarture of Ethernet Tmffic:IEEEA例Transactions on NetWorking,v012,1,Februaryl994,pages卜154 K1ivansky,SK,Mukherjee,Aand Song,C ”0n Long RangeDependence in NSFNf、T TrafficTechnical Report GITCC一946l,Geogia工nstitute of Techn0109y,Altlanta,GA 30332,USA,Decemberl9945 RJain,“ATM Networki
19、ng:Issues and Challenges Ahead,tWorld十Interop95 Engineer conference,Las vegas,vada,March 273119956 CPartridge,“The End of Simple Traffic Models,(EditorsNote),IEEE Network,V017,No5, September 1993,page337 Rene LCruz,“A Calculus for NetW0rk Delay,Part I:NetworkElements in工solation: IEEE Transaction on
20、 InformationTheory,V0137,No1,Januaryl991,Pagesll41318 Rene L Cruz, “A Calculus for Network Delay, Part II:Network A11alysis:IEEE TraIlsaction on Information Theory,v0137,1,Januaryl99l,Pagesl3214l9 JCai两,MFedor,MSchoffstall,JDavin, “A Simple NetworkManagement Protocol(SNMP):RFCl 157,IETF,Mayl99010 Jo
21、seph LHellerstein,Fan Zhang,and Perwez Shababuddin,“characterizingrmal Operation of a Web Server:Application to Workload Forecasting and Problem Detection0Proceedings of the Computer Measurement Group,19985 万方数据分布式网络流量预测模型的精度研究作者: 孙秀娟, 金民锁, 陈孝国, SUN Xiu-juan, JIN Min-suo, CHEN Xiao-guo作者单位: 孙秀娟,陈孝国,
22、SUN Xiu-juan,CHEN Xiao-guo(黑龙江科技学院数力系,哈尔滨,150027),金民锁,JIN Min-suo(黑龙江科技学院信息网络中心,哈尔滨,150027)刊名: 自动化与仪器仪表英文刊名: AUTOMATION P E Jackson Estimates of Distributions of Random Variables for Certain ComputerCommunication Traffic Models 1970(12)2.D E Duffy;A A Mcintosh;M Rosenstain;W.Willinger Statistical an
23、alysis fo CCSN/SS7 Traffic Data fromWorking CCS Subnetworks 1994(03)3.W E Leland;M S Taqqu;W Willinger;D.V.Wilson On the Self-Similar Nature of Ethernet Traffic1994(01)4.Klivansky S K;Mukherjee A;Song C On Long Range Dependence in NSFNET TrafficTechnical Report GIT-CC94/61 19945.R Jain ATM Networkin
24、g:Issues and Challenges Ahead 19956.C Partridge The End of Simple Traffic Models(Editors Note) 1993(05)7.Rene L Cruz A Calculus for Network Delay,Part :Network Elements in Isolation 1991(01)8.Rene L Cruz A Calculus for Network Delay,Part :Network Analysis 1991(01)9.J Case;M Fedor;M Schoffstall;J.Dav
25、in A Simple Network Management Protocol (SNMP) 199010.Joseph L Hellerstein;Fan Zhang;Perwez Shababuddin Characterizing Normal Operation of a WebServer:Application to Workload Forecasting and Problem Detection 1998本文读者也读过(10条)1. 肖昆 UCAN混合网络架构下的应用层接力式传输协议学位论文20072. 谢高岗.闵应骅.张大方.马维民 一个基于实际测试的网络流量模型期刊论文-
26、计算机工程与科学2001(5)3. 段迅.李坚石.清水敬司.DUAN Xun.LI Jian-shi.SHIMIZU Taka-shi 覆盖网络测试探析期刊论文-微电子学与计算机2006,23(10)4. 朱灵波.戴冠中.LinShi XueFang.Rif JeanMarie.Zhu Lingbo.Dai Guanzhong.LinShi XueFang.RifJeanMarie 一种网络流量分布特性的综合分析方法期刊论文-仪器仪表学报2009,30(5)5. 张鹏飞 宽带综合业务网络中尽力而为业务的性能研究学位论文20076. 韩英强.胡越明.Han Ying-qiang.Hu Yue-m
27、ing 基于NP的网络测试系统的设计与研究期刊论文-微型电脑应用2008,24(3)7. 宁国勤.朱光喜.NING Guo-qin.ZHU Guang-xi 异构重叠蜂窝网中基于业务选择的流量均衡期刊论文-小型微型计算机系统2006,27(11)8. 谢春光.祝军生.陈胜权.Xie Chunguang.Zhu Jusheng.Chen Shengquan FTTH标准、应用及其网络测试期刊论文-广播与电视技术2006,33(5)9. 黄政力 移动通信网络测试的数理统计考虑期刊论文-广东通信技术2006,26(8)10. 王涛 关于高校网络测试实验的探讨期刊论文-湖北第二师范学院学报2010,27(2)本文链接:http:/