1、重新认识 P2P 网络的拓扑 *张国强 (1,2) 袁斌 (1,2) 张国清 (1)(1)中国科学院计算技术研究所信息网络室,北京, 100080(2)中国科学院研究生院, 北京, 100080摘要:近年来,幂律现象在从社会关系网络到人造信息网络的各种各样的网络中被观测到。幂律似乎无处不在。然而人们在刻画新的网络时不考虑网络本身的演化过程而仅仅通过作图比较的方法做出某个网络节点度分布符合幂律的结论是不可取的,比如对于最近流行的 P2P 网络的刻画。本文在考察了 P2P 网络演化过程的基础上,从理论分析和仿真实验两个方面来证明 P2P网络事实上是遵从负指数分布而非幂律分布。 关键字:幂律,P2P
2、 网络,拓扑结构1. 幂律和 P2P 网络的拓扑近年来,人们在各种各样的实际网络中观察到了幂律分布。这些网络涵盖了从社会关系网络3到人造信息网络2 的广大领域。在这些网络中,一个节点的度数为 k 的概率,其中 c 和 r 为常数。然而幂律现象的广泛存在也给人们一种假象:即似乎幂rkp)(律无处不在。从而,当人们试图去刻画一个崭新的网络时, 首先想到的就是幂律。一种普遍的做法就是以 Log-log 形式画出节点的度分布,如果该图形与幂律分布稍有类似,就宣称该新的网络的节点度分布遵从幂律,比如对于 P2P 网络的刻画 1。然而这不是一种值得提倡的方法,因为它并没有深入探索这个新的网络的演化机理。事
3、实上,并非所有网络都呈现幂律特性。上述做法存在一个潜在的危险,即可能错误地把符合负指数分布的网络错误地归为幂律网络。这个错误产生的根源在于负指数分布和幂律分布在 Log-log 图中在一定的范围内具有一定的相似性,如果粗略地靠人眼辨别而不考虑网络自身的演化机理,则很可能会产生这样的错误。产生幂律的两个基本元素已经被广为人知4,即: 增长的网络 (Growing Network) 即网络是增长的,而不是静止的。 优先附着规则 (Preferential attachment) 即新加入的节点总是更倾向于和网络中的节点度较高的节点连接。因此,刻画一个新的网络的正确办法首先必须建立在对于该网络演化过
4、程的理解上。如果一个给定网络不满足以上两个基本元素的任何一条,那么去将度分布以 Log-log 图画出来,在人眼观察的基础上就作出该网络符合幂律分布的结论就显得过于草率。分布式非结构化的 P2P 文件共享网络,如 Gnutella8,是以自主式的方式构建网络。 文献1中提到,该网络也呈现了幂律分布,我们认为这个结论欠妥。文献1 中给出的 P2P网络拓扑节点度分布如图 1 所示, 其中,图 1(a)的节点数在 2000-3000 之间,而图 1(b)的规模在 30000 左右。 可以看出 , 即使是作者认为符合幂律分布的图 1(a), 实际上并不遵从* 张国强 1980 年生,男,江苏常州人,博
5、士研究生, 主要研究方向为计算机网络本课题得到下一代互联网中日 IPv6 合作项目子项目 面向业务和逻辑网络服务管理(20032050)的支持幂律。我们在图上以黑色虚线作出了严格符合幂率分布的线条,可以看出, 距离幂律分布,最小度节点的数量差了 30 倍以上。另外,两个图的共同点在于高度节点的度数很低,并且,随着网络规模的增长,高度节点的度数并没有增加。从图 1(a)到图 1(b), 网络的规模增长了十几倍,但最大度数几乎没有增加。 这不符合幂律分布的特征,而是更符合负指数分布的规律。Fig 1 Node connectivity distribution in Gnutella图 1 Gnu
6、tella 的节点度分布图我们来考察导致幂律的两个因素。对于第一点,即该网络是一个动态增长的网络,没有任何疑问, P2P 网络本身是一个动态增长的网络,用户网络规模的增大是很好的佐证。但该网络是否遵从优先附着规则则有待商榷。首先,很多 Gnutella 的实现在邻居选择上仅仅采用随机的策略,即任何已存在的节点被选作新加入节点的邻居的概率是相同的。其次,有部分 Gnutella 的实现考虑了节点的处理能力和带宽的差别, 因此,在选择邻居节点时,会优先考虑节点处理能力强或带宽较高的节点。 但是,该过程随着该节点度数的增加, 其吸引力是递减的, 即邻居越多,其剩余处理能力越少, 因此吸引力随着节点度
7、的增加应该递减而非递增。另外, 由于受物理因素的限制,每个节点能够提供的连接个数具有上限,通常不超过 100,这个数字对于一个 10 万规模的 P2P 网络来说几乎可以忽略。因而,我们可以基本认为该网络不遵从优先附着的规则。在以下的内容中,我们将分别从理论分析和仿真实验的角度去证明该类网络实际上符合负指数分布而非幂律分布。2. 理论分析首先,我们假设网络是一个动态增长的过程,每个新加入的节点都采用随机的方式选取邻居,每个已存在节点被选中的概率服从均匀分布。假设系统初始有 m0 个节点,每过一个时间单元,一个新的节点加入系统。新加入的节点随机地与系统中已经存在的 m 个节点相连。该过程给人的第一
8、印象会是节点的度分布符合二项分布,就像随机图一样,但结果不是如此。采用 Barabsi 提出的方法4,假设时间序列为 t1 t2.tn.,在 t 时刻,节点i(这里, i 表示 ti 时刻加入系统的节点) 获得一个新连接的速度满足: , 初01tki始条件满足 ,其中 表示节点 i 在 t 时刻的度数 。该微分方程的解为:mtki()(tki )ln(1)ln00mii Fig 2 Node connectivity distribution for simulation result, with N=50020 and m=4图 2 仿真结果的节点度分布 N=50020,m=4因而,t i
9、时刻加入系统的节点在 t 时刻的度数小于 k 的概率为:0101000)( )ln()(ln)(mteetPt kmttmkkkii ii 在一个长时间的演化过程里, ,可以忽略不计。因此,节点 i 的度分布的概li0t率分布密度为: mki ektPp)()(显然,它服从负指数分布。 3. 仿真结果假设网络服从增长的模式,即每隔一个时间单元,都有一个新的节点加入网络。假定初始网络有 20 个节点,连成一个环。而每一个新加入的节点都随机和网络中的 4 个节点相连(文献1 的测量结果是网络的节点平均度数为 7, 即每个新加入节点和网络中的 3.5 个节点相连) ,每个节点被选中作为新加入节点的邻
10、居的概率是相等的。我们作出了系统经过50000 步后的节点度分布图。对比图 1(b)和本图,有两点区别:一是本图最低度节点为 4,这是由于每个节点加入时都要选择 4 个邻居所致;二是最高度节点和图1(b)相比,要低 1/3 左右。最高度节点比图 1(b)低是由于实际的 P2P 网络并不是一个单纯增长的过程,而是一个节点加入伴随节点离开的动态过程。 而节点在网络中逗留的时间长短是不一样的,而是呈现重尾分布特征7,那些逗留时间长的节点就会相应获取更多的连接。 形成图 1(b)中低度节点分布的概率几乎相等的原因在于:在实际 P2P 网络中,当一个新节点加入的时候,获取的初始连接数并不是固定的,而是随
11、机的。 我们将初始连接数随机化,假设每个节点初始获取的连接数服从1.7 的均匀分布,这样,平均一个节点加入系统时获取的邻居数仍然是 4 。 在这基础上我们作出了仿真结果的节点度分布图,如图 3 所示。Fig 3 Node connectivity distribution for simulation result with initial node degree uniformly distributed in 17 and N=50020图 3 初始节点度均匀分布的节点度分布 N=50020,初始节点的度数服从17的均匀分布从仿真结果和图 1 的对比可以看出,P2P 网络的节点度分布更倾向
12、于服从负指数分布。Power-law 网络的特征已经被用于内容搜索中。特别是,在文献1提出 P2P 网络遵从幂律后, 人们提出了很多基于幂律特征的 P2P 网络搜索方法5,6。 但如果 P2P 网络并不遵从幂律分布,那这些方法的正确性就失去了基石。比如,这些搜索算法的的一个共同假设是要求网络节点的最大度数 kmax 和网络规模 N 满足 , 这里 r 表示节点度分布的幂律指数。rk1max而实际的 Gnutella 网络从图 1(a)演化到图 1(b) , 网络的规模增长了十几倍,网络的最大节点度数却没有增加。 因而,以幂律为基本假设对 P2P 网络进行的网络搜索算法的研究也就失去了理论基础。
13、 4. 结论虽然众多的现实网络都被发现存在幂律现象,但是并非所有的网络都遵从幂律。然而幂律无处不在的假象使得人们在刻画新的网络特征时倾向于仅通过将度分布以 Log-log 方式显示在图上,从而做出新的网络服从幂律的结论。但是这种方法可能造成错误地将一个节点度分布服从负指数分布的网络归为幂律网络。造成这种错误的根源在于人们缺乏对于新的网络演化过程的认真思考,忽略了幂律产生的两条基本原则。正确地刻画新的网络的方法必须首先建立在对于新的网络的演化过程的深入理解的基础上。 在考察了 P2P 网络的组网机制后, 我们指出 P2P 网络并不遵从幂律,而是遵从负指数分布。通过仔细分析提出 P2P 网络服从幂
14、律的两个原始图,我们发现这两个图实际更符合负指数分布而非作者所说的幂律分布。我们通过理论分析和仿真试验两个方面验证了我们的观点,并进而指出,基于幂律特征所作的搜索方法不适用于 P2P 网络。 参考文献1 M.Ripeanu, A.Iamnitchi and I.Foster. “Mapping the Gnutella Network”. IEEE Internet Computing, 20022 Faloutsos M, Faloutsos P, Faloutsos C. “On Power-law Relationships of the Internet Topology”. ACM
15、SIGCOMM Computer Communication Review, 1999, 29(4): 251-2623 S.Wasserman and K.Faust, “Social Network Analysis”. Cambridge Univ.Press, Cambridge, 19944 A.L.Barabsi and R.Albert, “Emergence of Scaling in Random Networks”. Science, 1999, 286(5439):509-5125 Lada A.Adamic, Rajan M.Lukose, Amit R.Puniyan
16、i, et al. “Search in Power-law Networks”. Physical Review E, 2001, 64:0461356 Nima Sarshar, P.Oscar Boykin and Vwani P.Roychowdhury. “Percolation Search in Power Law Networks: Making Unstructured Peer-to-Peer Networks Scalable”, Proceedings of the 4th IEEE international conference on Peer-to-peer ne
17、tworks(P2P04), 20047 Subhabrata Sen, and Jia Wang. “Analyzing Peer-to-Peer Traffic Across Large Networks”. IEEE/ACM Transactions on Networking, 2004, 12(2)8 Gnutella, http:/Revisit the P2P Network TopologyZhang Guoqiang(1,2) Yuan Bin(1,2) Zhang Guoqing(1)(1) Network Research Division, Institute of C
18、omputing Technology, Chinese Academy of Sciences,Beijing, 100080(2)Graduate University of Chinese Academy of Sciences, 北京, 100080Abstract: In recent years, power-law phenomenon has been widely observed in various real networks,ranging from social networks to man-made technological networks. It seems
19、 that power-law is ubiquitous. However, it is undesirable for people to draw the conclusion that a new network shows power-law distribution just by plotting the node degree distribution in log-log scale without considering the evolution mechanisms of the network itself. For example, the network evol
20、ution mechanisms have not been considered in the characterization of the recently popularized P2P network. After exploring the evolution mechanisms of the P2P network, we show both analytically and by simulation that P2P network in fact follows exponential degree distribution rather than power-law d
21、istribution.Keywords: Power-law, P2P network, topology 第一作者简介: 张国强, 1980 年出生, 男, 江苏常州人 , 博士研究生, 主要研究方向为网络管理 , 互连网拓扑发现和拓扑建摸, 主要发表的论文和专利有:1 张国强, 张国清, 李仰耀. “物理网络拓扑发现算法的研究和系统实现 ” 小型微型计算机系统 已录用2 张国强, 张国清. “Internet 网络的关联性研究” 软件学报 已录用3 Shi Zhou, Guoqiang Zhang and Guoqing Zhang. “The Chinese Internet AS-level Topology” IEEE Journal on Selected Areas in Communications, submitted.4 张国清,张国强,郑海 “一种物理网络拓扑发现系统及其方法” 专利申请号200410001820.95 张国强,张国清 “物理网络拓扑发现中“哑元”设备的推测方法” 专利申请号200410036801.X6 张国强,张国清. 专利“基于全局 Internet 拓扑知识的 P2P 应用构建方法” 已提交联系电话:010-62565533-8837Email: