收藏 分享(赏)

北京邮电大学本科毕业论文-random-walk.doc

上传人:cjc2202537 文档编号:190071 上传时间:2018-03-23 格式:DOC 页数:40 大小:2.09MB
下载 相关 举报
北京邮电大学本科毕业论文-random-walk.doc_第1页
第1页 / 共40页
北京邮电大学本科毕业论文-random-walk.doc_第2页
第2页 / 共40页
北京邮电大学本科毕业论文-random-walk.doc_第3页
第3页 / 共40页
北京邮电大学本科毕业论文-random-walk.doc_第4页
第4页 / 共40页
北京邮电大学本科毕业论文-random-walk.doc_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、本科毕业设计(论文)题目:复杂网络社团发现算法的研究姓名 学院 信息与通信工程专业班级 学号 班内序号 指导教师 2012 年 6 月复杂网络社团发现算法的研究摘 要近些年,随着WS小世界网络模型和BA无标度网络模型的提出,国内外掀起了研究复杂网络的热潮。复杂网络是对于复杂系统的高度抽象,其中许多性质如小世界性质、无标度性质以及聚集性质等等已经得到了充分的研究。复杂网络的研究是以系统的观点来看待真实系统,如Internet网络、电力网、新陈代谢网络等。(大量的文献表明,) 复杂网络通常会呈现出社区结构特性,而如何在实际网络中高效地发现社区结构是近年来复杂网络的研究热点之一。社团结构是复杂网络普

2、遍存在的拓扑特性之一,发现复杂网络中的社团结构也是复杂网络研究的基础性问题。在文章中讨论了一些复杂网络以及关于社区评估和确定方面的概念、理论、算法及应用等。同样的,文章中也讨论了一种可以应用于大型复杂网络的社团发现的random walk 算法,并且显示了它和其他算法在社团划分上有相同的表现,同时拥有更低的复杂度。文章中将 random walk 算法应用于对已知社团结构的复杂网络的划分以及比较其划分的社团结构的结果。除此之外,文章中对于此类算法给出一定改进,使该算法在复杂网络的社团划分上拥有了更高的准确度以及较低的复杂度。关键词 复杂网络,社团发现算法,random walk,复杂度Veri

3、fying Platform of Cognitive Radio NetworkABSTRACTIn recent years,as the WS small-world network model and BA scalefree network model was proposed,the study on complex networks is achieving a climax at home and abroad nowComplex network is the highly abstract of the complex system, many of the propert

4、ies, such as small world nature, scale-free property and gathered properties and so on, have got fully research. The study on complex networks treats the real systems such as the Internet,electricitynetworks and metabolic networks with the viewpoint of system science(Lots of literatures show that co

5、mmunity structure exists in many real networksHow to find such communities effectively is one of focuses of many recent researches in the branch of complex networksCommunity structure is one of the common topological characteristics of complex networks. Community detection has become a fundamental p

6、roblem in the research field of complex networks.In the article, the author discusses some complex networks as well as the theory, method and application about the evaluating and identifying of the community. Similarly,in this context we also discuss the “random walk“ algorithm that can be used in a

7、 large, complex network to identify the community and show that it performs as well as other methods at the division of complex networks, but at lower computational complexity.In the article the algorithm is applied to the division of complex networks that has knowing the community structure and com

8、pare the results of the classification of the community structure. In addition, the article gives certain improvement to such algorithm, so that the algorithm in the community division of complex network has the higher accuracy and lower complexity.KEYWORDS the complex network, community detection,

9、random walk, complexity目录第一章绪论.11.1 复杂网络的研究背景 .11.1.1 从七桥问题开始 .11.1.2 复杂网络近代的研究 .21.2 复杂网络社团结构研究的现状 .31.3 本文的研究内容以及文章结构 .6第二章复杂网络的基本概念以及网络拓扑的基本模型.72.1 复杂网络的基本概念 .72.1.1 网络的图表示 .72.1.2 平均路径长度 .82.1.3 聚类系数 .82.1.4 精准度 .92.1.5 复杂网络社团结构定义 .92.2 网络拓扑基本模型和性质 .102.2.1 小世界模型 .102.2.2 无标度网络模型 .112.2.3 模块性与等级

10、网络 .12第三章 复杂网络中的社团结构 .143.1 分级聚类 .143.1.1 凝聚算法 .143.1.2 分裂算法 .153.2 迭代二分法 .153.2.1 Kernighan-Lin 算法 .153.2.2 谱平分法 .163.3 其他经典算法 .173.3.1 GN(Girvan-Newman)算法 .173.3.2 Newman 快速算法 .173.3.3 Radicchi 算法 .17第四章 基于随机游走的社团发现算法.194.1 随机游走算法的基本原理 .194.1.1 随机游走算法的相似度矩阵获取 .194.1.2 随机游走算法的矩阵融合 .204.1.3 矩阵元素融合方式

11、 .214.2 随机游走算法的代码编译过程 .224.2.1 随机游走算法的相似度矩阵的获取 .224.2.2 随机游走算法的相似度矩阵融合 .23第五章 随机游走算法在社团划分中的应用.255.1 随机游走算法对复杂网络的划分 .255.1.1 已知社团结构的复杂网络 .255.1.2 对复杂网络的划分 .265.2 随机游走算法的复杂度 .28第六章 基于随机游走算法的程序优化.296.1 随机游走算法的复杂度的优化 .296.2 随机游走算法的应用于加权网络 .30第七章总结与展望.317.1 总结 .317.2 对未来的展望 .31参考文献.34致谢.35第一章 绪 论复杂网络一般指节

12、点众多、连接关系复杂的网络。由于其灵活普适的描述能力, 能够广泛应用于各科学领域对复杂系统进行建模、分析, 近年来吸引了越来越多的人对其进行研究。随着研究的深入, 人们发现许多实际网络均具有社团结构,即整个网络由若干个社团组成, 社团之间的连接相对稀疏、社团内部的连接相对稠密。社团发现则是利用图拓扑结构中所蕴藏的信息从复杂网络中解析出其模块化的社团结构, 该问题的深入研究有助于以一种分而治之的方式研究整个网络的模块、功能及其演化, 更准确地理解复杂系统的组织原则、拓扑结构与动力学特性, 具有十分重要的意义。自 2002 年 Girvan 和 Newman 基于边介数提出 GN 算法以来, 国际

13、上掀起一股社团发现的研究热潮, 来自生物、物理、计算机等各学科领域的研究者们带来了许多新颖的思想和算法, 并广泛应用于各个学科领域的具体问题中。1.1 复杂网络研究背景1.1.1 从七桥问题开始近年来复杂网络研究的兴起,使得人们开始广泛关注网络结构复杂性及其与网络行为之间的关系,要研究各种不同的复杂网络在结构上的共性,首先需要有一种描述网络的统一工具。这种工具在数学上成为图(graph).任何一个网络都可以看做是由一些节点按某种方式连接而构成的一个系统。具体网络的抽象图表示,就是用抽象的点表示具体网络中的节点,并用节点之间的连线表示具体网络中节点间的连接关系。实际网络的图表示法可以追溯到 18

14、 世纪伟大的数学家欧拉(Euler)对著名的“Konigsberg 七桥问题”的研究。Konigsberg 是东普鲁士(现俄罗斯)的一个城镇,城中有一条横贯城区的河流,河中有两座岛,两岸和两岛间共有七座桥,一个人能否在一次散步中走过所有的七座桥,而且每座桥只经过一次,最后返回原地?1736 年,欧拉仔细的研究了这个问题。他用数学抽象法,将被河流分隔开的四块陆地抽象为四个点,分别用 A、B、C 和 D 表示,而将七座桥抽象为连接四个点的七条线,分别用 a、b、c 、d、 e、f、g 表示,这样就得到了四个点和七条线构成的一个图,如图(图 1-1)所示。图 1-1 七桥问题于是欧拉考虑如果一笔画出

15、图 1-1,则七桥问题迎刃而解。可以想象,能一笔画出的图形,一定只有一个起点和一个终点(这里要求起点和终点重合) ,中间经过的每一点总是包含进去的一条线和出去的一条线,这样除了终点和起点外,每一点都只能有偶数条线与之相连。因此,如果要求起点和终点重合的话,那么能够一笔画出的图形中所有的点都必然有偶数条线与之相连。从图 1-1 中四个点看,每个点都是有三条或五条线通过,所以不能一笔画出这个图形,就是说不重复的一次走遍七座桥是据对不可能的。欧拉的七桥问题的抽象和论证思想,开创了数学中的一个分支-图论(graph theory)的研究。因此,欧拉被公认为图论只父,而图 1-1 被称为欧拉图。事实上,

16、今天人们关于复杂网络的研究与欧拉当年关于七桥问题的研究在某种程度上是一脉相承的,即网络结构域网络心智密切相关。1.1.2 复杂网络近代的研究20 世纪 90 年代以来,以 Internet 为代表的信息技术的迅猛发展使人类社会大步迈入了网络时代。从 Internet 到 WWW,从大型电力网络到全球交通网络,从生物体中的大脑到各种新陈代谢网络,从科研合作网络到各种经济、政治和社会关系网络等,可以说;人们已经生活在一个充满着各种各样的复杂网络的世界中。人类社会的网络化是一把“双刃剑”:它既给人类社会生产与生活带来了极大便利,提高了人类生产效率和生活质量,但也给人类社会生活带来了一定的负面冲击,如

17、传染病和计算机病毒的快速传播以及大规模的停电事故等。因此,人类社会的日益网络化需要人类对各种人工和自然的复杂网络的行为有更好的认识。长期以来,通信网络、电力网络、生物网络、社会网络等分别是通信科学、电力科学、生命科学、社会学等不同学科的研究对象,而复杂网络理论所要研究的则是各种看上去互不相同的复杂网络之间的共性和处理它们的普适方法。从 20 世纪末开始,复杂网络研究正渗透到数理学科、生命学科和工程学科等众多不同的领域,对复杂网络的定量与定性特征的科学理解,已成为网络时代科学研究的一个极其重要的挑战性课题,甚至被称为“网络的新科学(new science of networks)” 1,2 。传

18、欧拉七桥问题之后的近两百年中,数学家们一直致力于对简单的规则网络和随机网络进行抽象的数学研究。随着近年来计算机存储能力和处理数据能力的增强,以及一些大规模系统的数据库的建立,人们重新获得了真实网络的特征数据,发现大多数真实网络既不是规则的,也不是随机的,而是呈现一定规律的复杂网络。复杂网络之所以复杂,不仅在于网络规模的巨大,网络结构的复杂而且网络在时间、空间上都具有动态的复杂性,网络行为也具有复杂性。许多真实系统都可以用网络的形式加以描述,一个典型的网络是由许多结点与连接结点之间的边组成的。结点代表系统中的个体,边则表示结点之间的作用关系。如WWW 网络可以看成是网页之间通过超链接构成的网络;

19、Internet 网络可以看作不同的计算机通过光缆连接构成的网络;科学家合作网络可以看作不同的科学家合作关系构成的网络;基因调控网络可以看作是不同的基因通过调控与被调控关系构成的网络。这些真实网络的普遍存在,促使来自不同学科领域的科学家共同致力于复杂网络的研究。这些学科领域包括复杂性科学、数学、物理、生物和计算机等。复杂网络的研究可以使人们更好地了解现实世界的复杂系统,为设计具有良好性能的网络提供依据。同时复杂网络的理论成果将会广泛地应用到生物、计算机等各个学科领域。复杂网络的研究大致可以描述为三个密切相关但又依次深入的方面:大量的真实网络的实证研究,分析真实网络的统计特性;构建符合真实网络统

20、计性质的网络演化模型,研究网络的形成机制和内在机理;研究网络上的动力学行为,如网络的鲁棒性和同步能力,网络的拥塞及网络上的传播行为等。1967 年,美国哈佛大学社会心里学家 Milgram 做了一个实验,在美国将一封信通过熟人找熟人的方式传递到目标者,发现平均最短经过 6 人就可到达,这就是著名的“六度分离(six degree of separation)”现象,它揭示了社会网络的小世界特性。而在万维网中,平均只需点击 19 次超级链接,就可以从任意一个网页到达其它网页。近年来,随着大型数据库的建立和计算机存储与运算能力的迅速提高,复杂网络的研究进程大大加快。人们对社会系统、大型基础性设施和

21、生物系统中大量的真实网络数据库进行了系统的分析,寻找呈现表象的内在机制和模式,试图发现支配和影响这些复杂系统的动力学和演化规律的内在本质。复杂网络的理论及实证研究的发展将会对网络安全、网络控制、疾病传播的控制与防御、社会中人的行为动力学的研究和生物网络的演化机制研究等产生重要影响。1.2 复杂网络社团结构研究的现状随着对网络性质的物理意义和数学特性的深入研究,人们发现许多实际网络都具有一个共同性质,即社区结构。也就是说,整个网络是由若干个“社区“或“组 构成的。每个社区内部的结点间的连接相对非常紧密,但是各个社区之间的连接相对来说却比较稀疏。揭示网络的社区结构,对于深入了解网络结构与分析网络特

22、性是很重要的。如社会网络中的社区代表根据兴趣和背景而形成的真实的社会团体;引文网络中的社区代表针对同一主题的相关论文;万维网中的社区就是讨论相关主题的若干网站;而生物化学网络或者电子电路中的网络社区可以是某一类功能单元。发现这些网络中的社区有助于我们更加有效地理解和开发这些网络。在复杂网络社区结构划分的研究中,社区结构划分算法所要划分的网络大致可分为两类,一类是比较常见的网络,即仅包含正联系的网络(网络中边的权值为正实数);另一类是符号社会网络,即网络中既包含正向联系的边,也包含负向联系的边。因此划分网络中社区结构的算法相应分为两大类,而对于第一类网络又提出了许多不同的社区结构划分算法,划分第

23、一类网络社区的传统算法可分为两大类,第一类是基于图论的算法,比如 KL 算法、谱平分法、随机游走算法和派系过滤等;第二类是层次聚类算法,比如基于相似度度量的凝聚算法和基于边介数度量的分裂算法等。最近几年从其他不同的角度又提出了许多划分第一类网络社区结构的算法,大致可划分如下:基于电阻网络性质的算法、基于信息论的算法、基于 PCA 的算法和最大化模块度算法等。下面简要介绍一下几种具有代表性的算法。1970 年,Kernighan 和 Lin 提出一种试探优化法划分网络中的社区结构,简称 K-L 算法。它是一种基于贪婪算法原理将网络划分为两个大小已知的社区的二分法。其基本思想是为网络的划分引进一个

24、增益函数 Q,增益函数定义为两个社区内部的边数减去连接两个社区之间的边数,然后寻找使 Q 值最大的划分方法。1990 年,Pothen 等基于图的 Laplace 矩阵的谱特征提出一种将网络划分为两个社区的二分法瞻目。该算法的理论基础是不为零的特征值所对应的特征向量的各元素中,同一个社区内的结点对应的元素是近似相等的。因此可以根据网络的 Laplace 矩阵的第二小特征值将其分为两个社区。 2001 年,Girvan 和 Newman 提出了一种基于边介数的分裂算法,简称 GN 算法。该算法的基本思想是不断地从网络中移除介数最大的边。边介数定义为网络中经过每条边的最短路径数目。该算法的复杂度非

25、常高,2003 年 Tyler 等在 GN 算法的基础上提出了一种新的算法圆 1,它可以显著提高计算速度,但也降低了计算的准确性。GN 算法是以网络中的每一个结点 i 为源结点,来计算它到其他结点的最短路径,并以这些最短路径经过每条边的次数作为该边的介数。而 Tyler 等人提出,以网络中某个结点集内的结点为源结点来计算边的介数也可以达到较好的效果。2004 年,Newman 把 GN 算法推广到了加权网络中。 3 2003 年,Wu 和 Huberman 基于电阻网络的性质提出了 W_H 算法,其主要思路为将网络中每条边想象成电阻为单位值的导线,且在网络中任意选择的两个结点上加上单位值的电位

26、差。Wu 和 Huberman 认为,如果网络可以分解成两个社区,那么电位谱在连接两个社区的边的两端会产生一个较大的间隙。因此,首先确定电位谱的最大间隙处的某个电位值,然后根据每个结点处的电位是否大于该值而确定结点属于哪个社区。该算法的一个重要特点是可以用来确定包含指定结点的社区,而无须计算出所有的社区。 2004 年,Newman 提出一种基于贪婪法思想的凝聚算法,并称这种算法为快速算法。该算法是在使得模块度不断增加的基础上进行,即每次合并沿着使模块度增多最大和减小最少的方向进行。算法总的复杂度为 O(m+n)n),对于稀疏网络则为O( ),其中 n 为网络中结点的个数, m 为网络中边的条

27、数。在 Newman 快速算法的基2础上,Clauset 、Newman 和 Moore 等人采用堆的数据结构来计算和更新网络的模块度,提出了一种新的贪婪算法,称为 CNM 算法。该算法的复杂度只有 O(n ),已接近nlog2线性复杂性,可用来分析大型复杂网络数据。同样为了最大化网络的模块度,2006 年Newman 基于模块度矩阵提出一种划分网络中社区结构的谱算法,并于 2008 年把该算法推广到有向网络中。2005 年,Pons 和 Latapy 提出一种利用随机游走划分网络社区结构的算法,算法的初始条件为每个结点为一个单独的社区,然后逐步合并可使结点和它所在社区之间的平方距离均值达到最

28、小的两个社区。每一步都要更新社区之间的距离,其中两个结点之间的距离对应于它们的相似度,即在一个离散的随机游走过程中,它们之间的方向转移概率。以上所述算法最终目的均是把网络划分为若干个相互分离的社区,但是现实中很多网络并不存在绝对的彼此独立的社区结构,相反它们是由许多彼此重叠且相互关联的社区构成。比如,每个人根据不同的分类方法都会属于多个不同的社区(如学校、家庭、不同的兴趣小组等)。在这种情况下,很难单独的将这些社区划分出来。因此,Palla 等人提出了一种派系过滤算法(clique Percolation Method)来分析这种互相重叠的社区结构。尽管复杂网络的社区发现问题得到了大量的研究,

29、但还存在一些尚未解决的基本问题,如社区概念虽然大量使用,但却缺少严格的数学定义;大多数社区发现算法虽然性能优越,但所需计算量却很大。这说明复杂网络中社区发现的研究还需要付出大量的努力。1.3 本文的研究内容以及文章结构本课题主要研究复杂网络中的社区结构划分。首先,针对无权的复杂网络,提出了随机游走的概念,在此基础上提出一种有效的划分社区结构的算法。实验结果表明该算法是可行且有效的。最后把这种算法推广到加权的大型复杂网络中,并把算法应用实际的加权网络数据中,验证了推广算法的可行性和有效性。综上所述,本文主要研究内容共分为两个部分:第一部分提出了一种基于随机游走的复杂网络社区结构划分算法;第二部分

30、把此算法推广到加权的复杂网络中。具体内容如下:第 2 章介绍了一些复杂网络的图表示、度分布、平均最短路径和社区结构等基本概念和基本性质。介绍一些基本的网络拓扑模型及其性质,包括规则网络、随机图、小世界网络、无标度网络等。第 3 章主要针对 Internet 中的拓扑结构提出来一些模型。介绍复杂网络的社团结构及其搜索算法。大多数的实际网络都具有社团结构。也就是说,一个大的网络可以分成若干个字裙,在这些子群的内部的连接较为紧密,但是各个子群间的连接却较为稀疏。找到并且分析这些子群,有助于我们更好地理解网络的全局行为第 4 章主要提出了基于图论的随机游走(random walk)算法,研究随机游走算法的基本原理,以及对随机游走算法的编译。第 5 章主要介绍了 random walk 算法对已知社团结构的复杂网络进行社团结构的划分,并比较划分社团结构的准确度;同时给出算法的复杂度的分析。第 6 章主要介绍了在 random walk 算法基础上的改进,使 random walk 算法能够实

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报