1、互联网通信技术的应用研究第 28 卷第 7 期20O4 年 7 月信息技术F0RMA,I1ONTECHNOIoGVOL.28NO.7Ju1.2OO4互联网通信技术的应用研究陈红兵,李俊兵,黄婷婷(武汉大学计算机学院,武汉 430079)摘要:介绍了互联网通信技术的特点,应用和发展,提出了一些新的方法 ,解决了互联网通信过程中的信息访问资源浪费,信息阻塞和信道负担增加的问题.关键词:信息阻塞;通信费用;信道负担中图分类号:TN915.0 文献标识码:A 文章编号:10092552(20cl4)07004203ThestudyofapplicationofInternetcommunication
2、technologyCHENHongbing,LIJunbing,HUANGTing?ring(山 SdmeeCollege,WuhanUniversity,Wuhan430072,China)Abstract:Thispaperintroducesthemaincharacteristics,applicationsanddevelopmentsofIntemetcommuni?cation,andproposesanewsolution,communicationcosts,thechannelbarrage,andchannelburdensintheprocessofIntemetco
3、mmunicationKeywords:channelbarrage;coInlTiunicationcost;channelburdens0 引言面对海量的 Intemet 信息和来自企业内外众多的访问请求,有效地组织和规划内部网信息资源,以达到减轻服务器的负担,降低访问费用,提高 I 网使用效率等成为必须解决的问题.为了更好地理解问题本身,可以将其归纳成如下两个方面的两个方面.(1)在企业内部分布信息的时候,总是在逻辑上将相应的信息主题分成块结构,这样,内容上彼此独立的信息往往组成不同的信息块.这些信息块分布在企业内部不同的 web 服务器上.由于各信息块内容不同,其重要性及受重视的程度也
4、不同,被访问的频率也必然不一样.如果这些信息块毫无规律地安置在各 web 服务器上 ,必然导致各个服务器被访问的频率差别显着.最极端的情况则是其中的一两台服务器被频繁访问,甚至有可能负担过重而拥塞,出现这种情况,最直接的后果是资源浪费,从而失去某些无形资产.所以有必要对各信息块被访问的频率进行统计,在此基础上建立优化算法,确定解决方一42 一案,使得各服务器所承受的负担尽可能地均衡,防止造成访问瓶颈.(2)人们对 Intemet 信息访问是有针对性的,有其明显的目的,必然对其中的一些信息资源感兴趣,访问也比较频繁,造成通信费用的增长.另一方面,必然有不同的用户对相同的信息主题产生兴趣,以至于屡
5、屡击入相同的网址调用这些信息,同样也造成通信费用的增长.为了有效地降低通信费用,可以将那些被频繁访问的 Intemet 信息下载至 Intranet内部的 Web 服务器上,使之成为内部信息 ,Intranet用户在内部就可以对其进行访问.所以也必须在统计的基础上,建立算法模型,降低通信费用,提高访问速度.以上两个问题是基于 Intranet 的分布式信息系统信息组织和规划的关键问题.前者是针对内部信息的组织安放的,概括为“访问瓶颈问题 “;后者则针收稿日期:200312 一 l8作者简介:陈红兵(1966 一),男,硕士研究生,研究方向为计算机网络与通信.对外部通信,称之为“通信费用问题 “
6、.1 传统信息查询优化技术1.1 基于浓密树的查询优化算法基于浓密树的查询优化算法以同步执行计划为目标,有三种查询优化算法,分别为 GP 算法,GP,算法和 GPp 算法.具有四个问题: 一是丢弃了同步执行阶段之间的流水线并行性;二是增加了读写中间结果的 I/O 开销;三是较早完成 JOIN 任务的处理结点,必须空闲等待,降低了处理结点的利用率;四是难以保证产生高效率的查询计划.1.2SQL 语句的优化方法优化器对 where 子句的优化有 3 种方法:优化参数;连接条件;“或“ 运算条件 .缺点是 where 条件中使用了例如 float 和 int 对应,char 和 varchar 对应
7、等不兼容的数据类型;另外,若表达式的值在编译时无法得到,优化器就只能使用它的平均密度来估计命中的记录数.2 访问瓶颈问题现将互联网通信过程中的信息访问资源浪费,信息阻塞和信道负担增加的问题统称为访问瓶颈问题.本文使用 LPr 和 CPDF 图生成算法能有效地解决“ 访问瓶颈“ 问题.2.1CPDF 图生成算法给定 SPDF 图 G,CPDF 图生成算法分 3 步:构造G 的执行顺序图;划分 G 的结点;连接 merge 和 split操作,形成 G 的 CPDF 图.2.2 顺序执行图的构造算法给定一个 SPDF 图 G,G 的执行顺序图是单路径树,规定了数据操作的执行顺序,为了构造 G 的执
8、行顺序图,先来构造 G 的数据相关图.输入:SPDF 图 G=(V,E),w,F)输出:G 的数据相关图 G=(V,E)(1)V:=空集合;E=空集合;TMPG:=G;(2)FORST:=删除 TMPG 中权为“S“ 的边所得到的森林;(3)FORFORST 中每个子树 tDOV:=vUt;ENDFOR;(4)FORG 中每条具有权“S“ 的边(v,v2)DO(5)E:=EU(t1,t2);(t1,t2)的权为“S“;(6)ENDFOR.在构造执行顺序图之前,还需计算数据相关图中各结点的工作量,其关键是 SPDF 图各结点工作量的计算.设 O 是 SPDF 图的一个结点,p 是输入关系集合.W
9、(O,p)=+. 定义为 O 的工作量,其中是在 p 上执行 O 所需要的处理机时间,.是在 p 上执行 O 所需要的磁盘读写时间.W(O,p)可以根据 O 的实现算法和 p 中关系的大小,使用数学模型计算.给定一个 SPDF 图 G 及其数据相关图 T 及 T 中各结点的工作量,G 的输出图构造算法如下:确定 T 的最长路径 P;建立一个 N 层框架(N 是 P 的结点数),第 1层框架是一个集合 S.;对于 0iN 一 1,把 P 的第 1 级结点分配到第 1 层框架 Si;按照如下规则循环地分配 T 中 P 以外的结点:由叶到根顺序分配;第 1 集结点可以分配到满足条件 jI 的任何框架
10、 Si;只分配叶结点;当一个结点可分配到多个框架时,分配到具有最小工作量的框架;当一个结点被分配到一个框架后,从 T 中删除该结点及其所连的边.建立执行顺序图,Sn-1 一一 S 一.2.3 结点划分算法结点划分算法根据执行顺序图来划分 SPDF 图的结点.先给出计算操作结点划分比的方法.设OS(a)=O.O是顺序执行结点 a 对应的操作结点集合,对于 1ik;Oi 的划分比定义为 Pi=w(Oi,P)/(_2Ojos(a)w(O,p).下面是计算结点划分比的算法:输入:G:SPDF 图;SEG:G 的执行顺序图;W:存储 G 的各结点的工作量的数组.输出:PR:存储 G 的结点划分比的数组.
11、FORSEG 的每个顺序执行结点 aDOWORK:=0;FOR 每个数据操作结点 vOS(a)DOWORK:WORK+w(v);ENDFOR;FOR 每个结点 v0S(Ot)DOPR(v)=w(v)/WORK;ENDFOR;ENDFOR.下面是结点划分算法 Partition 的定义,给定一个 SPDF 图 G 及其执行顺序图 SEG,Partition 算法根据 G 中各结点的划分比,以 SEG 的结点所对应的操作结点集合为单位,把 G 的各结点划分为多个兄弟结点,扩展 G 图.算法 Partition(G,SEG,PR,N)输入:G:SPDF 图,SEG:G 的执行顺序图 ;PR:G一43
12、中各结点的划分比;N:处理机数.输出:EG:扩展的 SPDF 图 .FORSEG 的每个结点 aDOF0Ra 中每个操作结点 vDOP(v):=N*PR(v)(四舍五人);ENDFOR;调整P(v),使得 P(v)=N;FORa 中每个 G 结点 vDOP(v)各结点 V1Vp(v)加入 EG;ENDFOR;ENDFOR;FORG 中每对父子结点 (v,w)DOFORi=lTOP(v)STEP1DOFORj=1TOP(w)STEP1DOE.NDFOR;ENDFOR;ENDFOR;2.4LPT 算法人们一直致力于构造一些好的性能,保证多项式时间近似算法.采用其中最自然也是最有名算法(Longes
13、tProcessingTime).(1)把元素按单调递减顺序排列,设 PP2P3Pn,构成序列 L;(2)将 L 中的当前元素放人当前和最小的子集中,然后从 L 中去掉它.2.5 与传统算法的性能比较记=.,:. 为由 IPT 得到的划分,s=,;,为相应问题的最优划分,并且分别记和的元素和为 G 和 c,令 M=maxc,;W=minCj;M=maxc,W=minC;则有,对于 minimsPP:5 詈一;对于懈 imsPP:可以利用工具软件,首先对各带核和不带核的信息主题进行统计和分析,在此基础上对各信息主题进行优化组合,使得各 web 服务器信息量分布合理,负担均衡,并使资源合理配置,达
14、到 Intranet 稳定有效运行之目的.3 通信费用问题在实践中,通信费用问题的算法可以用很多,其中最直观的算法是“贪婪算法 “,它是依照一种最优度量法,即每步都取局部最优值,最后求得解的过程.“ 贪婪算法“ 虽然很直观 ,但是它的解并不一定是最优解,有时甚至与最优解相去甚远,误差超过可?-44?-以忍受的范围.解决工程问题,必须综合考虑精度和复杂性.在兼顾两方面因素的前提下,本文采用一种近似算法,其算法思想主要是:(1)问题的解由向量(,:,)表示,取部分向量(.,:.) 表示部分解 ,k11,此时内信息总量为s.,存在以下两种情况:()存在某个k,使得 M 一SiS 这表示在内还可以放入
15、某个信息块而容量不至于超过,则依次比较最后一个下载信息块之后的量,直到找到一个放得下的信息块为止.若还有剩余容量,则做循环,直到所有的任何信息块均比较完;(b)对于所有_k,M 一 SiS, 这说明在 上已不能放人任何一个信息块,否则会超过,则,k 时,=0.(2)取部分向量(.,:.,+.)表示部分解,转以上步骤,其中为小于 rt 的整数,IM 存放最佳结果的,当 k0 时,k 个元素的子集数目为()n,()=1,()5k=On=0(n)故近似算法的复杂性为 0(n“).设通信费用算法的最优解为 z+,上述算法的解为 Z.可以证明:该算法的性能与的取值有关,当 hh 时,则=,即近似算法得出
16、的解是最优解.通过引入近似算法解法,成功地解决了通信费用问题.它具有精度高,容易用程序实现等优点.4 总结在我国当前的社会形式下研究互联网通信的应用问题,不仅具有特别重要的理论价值和经济价值,而且具有更现实的意义.本文为互联网通信的应用问题提出了一点思路,并提出了可行的方法.参考文献:1谢希仁,陈呜 ,张兴元.计算机网络M.电子工业出版社,2OO2.2彭澎,张国林 .计算机网络技术及应用M.北京科学技术出版社.2003.3KushidaT,“AnempiricalstudyofthecharacteristicsofIntemetc0lT1.munication“J3.ComputerCommunicaons22(1999)16071618.4美DouglasEComer.Internet 引导M.马志强,寥卫东译.清华大学出版社.责任编辑:张棣