网络测量与分析技术.ppt-道客多多

资源描述

1、网络测量与分析技术,黄泳铭华北计算技术研究所 2008年秋季,Self-Similarity in World Wide Web Traffic: Evidence and Possible Causes,I. INTRODUCTION II. BACKGROUND III. RELATED WORK IV. EXAMINING WEB TRAFFIC SELF-SIMILARITY V. EXPLAINING WEB TRAFFIC SELF-SIMILARITY,Self-Similarity in World Wide Web Traffic: Evidence and Possibl

2、e Causes（contd）,VI. CONCLUSION,Abstract,最近，自相似性这一概念已经被证明适用于广域网和局域网的网络流量。本文，我们证明网络流量表现出World Wide Web （万维网）传输的自相似性，并且我们对自相似做出了一种假设的解释。,总的方法：对NCSA Mosaic实际用户做一套追踪。我们检查WWW流量的结构。,两大步骤：首先我们证明WWW流量显示它与自相似模型一致性。其次我们证明自相似性可以被解释成是基于WWW文件大小的基本分配，传输中高速缓存和用户偏好的影响，用户的“思考时间”的影响和在一个局域网中许多传输的叠加。,I. INTRODUCTION,为了

3、正确制定和执行的计算机网络和网络服务，如万维网，了解网络流量的性质是关键。最近的局域网流量和广域网流量调查共同挑战已经被承认的网络流量模型，例如泊松过程,发生在许多或所有时间段的流量可以用自相似性概念描述。由于在一个长的时间范围内已观查到自相似性过程的发生，它应该表现出长相关性；在任意时刻的估计值应该与将来时段的估计值相一致。,然而，在网络流量中自相似背后的原因还没有被清楚地认出。在本文中，我们列出一些情况，网络流量的自相似可以从文件系统的特点和用户行为方面解释。,两个必要工具,ON/OFF sources（在Section II-C中会详细描述）World Wide Web,数据采集工

4、作,NCSA Mosaic 捕获用户访问网站的访问模式我们的数据包括50多万用户文件传输要求而且包含了详细的时间和传输长度。另外，我们调查了一些Web服务器而得到文件大小的信息用来比较客户的访问模式和出现在服务器上的访问模式。,文章结构,第一部分：我们考虑我们衡量的Web流量最繁忙时间自相似的可能性。第二部分：利用网络流量，用户偏好，以及文件大小数据，我们解释某一特定网络的传输时间和空闲时间是重尾的原因。,II. BACKGROUND,A. Definition of Self-Similarity B. Statistical Tests for Self-Similarity C.

5、Heavy-Tailed Distributions,A. Definition of Self-Similarity,给一个零平均值固定时间序列X=(Xt；t=1,2,3,.) ,定义m聚合度序列X(m)=（X(m)k;k=1,2,3,. . .）我们称序列X是H-self-similar,对于所有确定的m, X(m) 有与被mk重新调节的序列X有相同的分布,如果X是 H-self-similar，它有相同的自相关函数作为序列Xm中的所有m,一个长相关性进程有一个自相关函数当,这个进程的自相关函数遵循幂衰减，与传统流量模式显示的指数衰减相比较。幂衰减要慢于指数衰减。对时间序列采用自相似模

6、型一个吸引人的特点（适当的时候）是一个序列的自相似程度可以只用一个单一的参数表示。这个参数表示序列的自相关函数的衰减速度。该参数用Hurst参数表示,II. BACKGROUND,A. Definition of Self-Similarity B. Statistical Tests for Self-Similarity C. Heavy-Tailed Distributions,B. Statistical Tests for Self-Similarity,本文中用四种方法测试自相似： 1. variancetime plot 2.R/S plot 3. periodogram me

7、thod 4. Whittle estimator,由于我们只关心在我们的数据中的长相性，所以我们用第四种方法Whittle estimator。其两个基本结构是这是分行高斯噪声（FGN）和fractional ARIMA（p,d,p）。因为每小时收集的数据都使m增加，在使用FGN模型时Whittle estimator适用于每个m聚合度数据。,随着m的增加，短相关性达到数据的平均值，如果H的值始终不变，我们可以确信它估量出了自相似的基本水平。置信区间的增长将趋于聚集程度增加;然而如果随着聚集程度的增加H的估计出现稳定，我们认为置信区间具有代表性。,II. BACKGROUND,A. Defi

8、nition of Self-Similarity B. Statistical Tests for Self-Similarity C. Heavy-Tailed Distributions,C. Heavy-Tailed Distributions,如果一个分部是重尾分布那么应该符合简单的重尾分布是Pareto 分布，Pareto 分布在其整个范围是双曲线,Pareto分布的概率函数是其累积分布函数是参数k是随机变量的最小可能值,为了估计我们数据中重尾的出现我们使用loglog complementary distribution (LLCD) plots 有可能用LLCD plot产生

9、参数的粗略估计,III. RELATED WORK,先前的广域网研究已经研究了FTP, TELNET,NNTP, 和 SMTP traffic 我们的数据通过在一个“stub” network的WWW流量研究补充先前的研究。因为WWW流量可以解释互联网流量的很大一部分。,我们集中研究网络流量的自相似性的原因。由于这个原因，我们并不分析流量资源的低，正常，繁忙的时段。相反，我们着重于在我们的记录中四个繁忙的时间。我们的文件是根据在应用层收集的数据而不是网络层。因此，我们可以检查传输时间和文件大小的关系，并能对这些分布的高速缓存和用户偏好的影响进行估计。,IV. EXAMINING WEB TR

10、AFFIC SELF-SIMILARITY,A. Data Collection B. Self-Similarity of WWW Traffic,A. Data Collection,我们收集数据从1994年十一月21日到1995年5月8日，但是本文里用的数据只是从1995年1月17日到1995年2月28日。选择这段时间是因为各部门的WWW使用明显降低而且因为1995年3月初Mosaic在我们的网站不再是占主导地位的浏览器。这个研究跟踪数据的统计在表I。,表1,IV. EXAMINING WEB TRAFFIC SELF-SIMILARITY,A. Data Collection B. S

11、elf-Similarity of WWW Traffic,B. Self-Similarity of WWW Traffic,我们集中研究流量序列中的个别时间，以便能够提供一个尽可能接近于静止的数据。提供这四种方法的一个例子，我们在图1中分析1995年2月5日星期四4-5点这一小时的数据。,图1（a） variancetime 分析,图1（b） R/S plot分析,图1（c）periodogram method,以上的三个图各表示用variancetime plot、R/S plot和periodogram method方法分析一个小时的数据证明了网络流量具有自相似性。我们使用的Whit

12、tle estimator方法要求提供基本时间序列的构成。因此我们使用分型高斯噪声模型，用这种方法分析四个最忙时间的结果见图2,图2（a）最繁忙时间,图2（b）次繁忙时间,图2（c）次空闲时间,图2（d）最空闲时间,以上四图表明我们使用的Whittle estimator方法分析网络上的数据得到的判断依然是在“stub” network网络传输具有自相似性。,V. EXPLAINING WEB TRAFFIC SELF-SIMILARITY,A. Superimposing Heavy-Tailed Renewal Processes B. Examining Transmission Tim

13、es C. Examining Quiet Times,A. Superimposing Heavy-Tailed Renewal Processes,考虑大量同时存在的进程，每个不是ON就是OFF。每个进程的ON和OFF周期交替，并且其中ON的时间分配是参数为的重尾，或者OFF的时间分配是参数为的重尾。这样的模型相当于一个工作站的网络，每个不是保持沉默，就是以恒定速率传输数据。,对于这种模式，它显示出许多资源的收集结果是一个自相似fractional Gaussian noise过程，其中,通过这个模型来解释Web流量的自相似性需要解释ON或OFF时间的重尾分布。在我们的研究中ON时间相

14、当于独个网站文件的传输持续时间，OFF时间相当于传输间隔时间。如果ON和OFF时间的重尾分布这是为什么？为了回答这些问题，我们可以分析我们的客户记录的特点。,V. EXPLAINING WEB TRAFFIC SELF-SIMILARITY,A. Superimposing Heavy-Tailed Renewal Processes B. Examining Transmission Times C. Examining Quiet Times,B. Examining Transmission Times,1) The Distribution of Web Transmission T

15、imes:我们首先观察的网络文件传输时间分布显示文件传输时间有明显的分布规律。图3（a）显示发生在测量期间所有的130140文件的持续时间的LLCD plot。图3（b）显示对变量k的Hill estimator的估计值,图3（a） LLCD plot,图3（b） Hill estimator,从图3可以看出ON时间的基本分布在一个非常高或者无穷的差异状态。值得注意的是在ON时间分布的大量的ON/OFF进程的收集结果是一个自相似进程。,2) Why Are Web Transmission Times Highly Variable?：为了理解为什么传输时间存在较大差异，我们检查网络文件本身

16、的大小分布。首先，我们展示在我们日志中文件传输的大小分布。所有的130140个文件传输的结果在图4中显示。,图4（a） LLCD plot,图4（b） Hill estimator,由图4可以观察出文件大小大于10000字节时，流量分布似乎可以相当好的被重尾分布建模。,一个重要问题是：为什么文件传输表现出重尾分布？ file request不是其主要原因，其真正原因是文件传输似乎更跟据在Web中的Available file而定。就这两个原因的具体分析见图5,图5（a）file request,图5(b)unique file,Unique Files，File Transfers和Fil

17、e Requests的关系在图6中可以观察的更详细。,是什么决定了unique files的分布呢? 为了帮助回答这个问题，我们调查了遍布北美的32个网站服务器。事实上，所有可见文件的分布出现在32个网络服务器很接近我们的客户踪迹的unique files分布。Unique files和Available Files 的文件分布见图7,图7,图7表明Unique files可以被考虑成是Available Files 的版本。这种说法依据的假设是，缓存管理不根据引用文件的大小排除或引用;并且Unique files是在一套Available Files中不注重大小的抽样。因此，我们断定只要缓存

18、是有效的，在Web中Available Files可能是文件传输重尾的首要限定，用户的要求不再重要。,3) Why Are Available Files Heavy-Tailed?:如果Available Files在Web上是重尾，一个可能的解释可能是明确支持多种格式可能促进文件大小变大，因此增加分布大小的尾重。然而我们发现多种方式在一定层度上增加尾重，事实上，它不是重尾的根本原因。可见图8。,图8,图8的中把所有服务器文件根据文件扩展名规成7个类别。我们使用的类别有：图片，文字，音频，视频。结果表明文本文件分布也许是重尾。,事实上，文件大小分布有很长的tails之前已注意到，但他们没有明

19、确检查尾的power-law行为，值的测量被忽视了。我们把我们的记录中Web文件的分布和Unix文件系统在一次观测中发现的文件分布作比较。收集的数据见图9,图9,令人惊讶的是，图9显示了我们的Web比Unix文件系统对小文件有偏好。更重要的是，Web文件的tail分布与Unix文件tail分布不一样。,V. EXPLAINING WEB TRAFFIC SELF-SIMILARITY,A. Superimposing Heavy-Tailed Renewal Processes B. Examining Transmission Times C. Examining Quiet Time

20、s,C. Examining Quiet Times,在第5章A部分，我们认为网络流量的自相似性是重尾ON/OFF进程的叠加。ON时间相当于个人网络文件的传输持续时间，OFF时间相当于工作站没有接收到Web数据的周期。规定OFF时间分两种情况是“积极OFF”时间和“消极OFF“的时间。积极OFF时间和消极OFF时间的差异在本节考虑的OFF时间分布中很重要。,从我们的追踪中抽出OFF时间，我们进行如下解释。在每个Mosaic通信中，ai 是URL的i请求的绝对达到时间，ci 是URL的i请求的绝对传输时间，遵循（ci - ai）是ON时间的随机变量（如图3中的描述），而（ai+1 - ci ）是

21、OFF时间的随机变量。图10显示了（ai+1 - ci ）的LLCD的plot。,图10,积极的OFF时间代表客户机需要传输文件的时间（例如，解释，格式化，和展示文件部分）。似乎可以解释成在1ms到1s范围的OFF时间不是主要由于客户检查数据，而是更主要的视机器处理和数据本身的被接收到文件部分的展示时间而定。该区别在图11中被说明。,图11,另一种描述方法是通过检查URL要求的间隔时间即（ai+1 - ai ）的分布，图12显示了该分布。,在图12中的凹陷处，反映了两个根本分布的出现。第一个是URL要求的间隔时间用来回答单一用户的要求（或者是用户click）。第二个是URL要求的间隔时间用来

22、回答两个连续用户要求。这些分布的不同是受ON时间分布和OFF时间分布的影响，但是后者是受ON时间分布，积极的OFF时间和消极的OFF时间影响。,我们在先前的章节看到ON时间是重尾分布，在本节我们看到OFF时间是重尾分布，我们判断ON时间（和available files在WEB中的分布）更有可能是流量自相似性的造成原因，而不是OFF时间。,VI. CONCLUSION,本文中我们证明了网络流量中存在自相似，更重要的是我们沿着两条思路描述了网络流量自相似的发生：第一，传输时间可能是重尾，主要因为在Web中可用文件的分布。第二，我们证明空闲时间也可能是重尾，主要受用户“思考时间”的影响。,在这项研究中一些问题被提出：首先，Web流量到广域网流量的归纳不明显。第二个问题涉及流量序列中观测自相似要求的数量。,

展开阅读全文