1、 中国科学技术大学博士学位论文人类在线行为的实证和建模姓名:王澎申请学位级别:博士专业:理论物理指导教师:汪秉宏2011-04-25AbstractABSTRACTThe significance of the quantitative understanding of human behavior is quite obvious sincethe dynamics of many social, technological and economic phenomena are driven by individualhuman actions. Thanks to the developm
2、ent of the information technology, more and moreelectronic records available from internet give us a valuable insight into the pattern of humanbehaviors. From surface mail to short message, a wide variety of human activities were studiedin recent years. The main result, arising from all these studie
3、s, concerns the heavy-tailed natureof human activity: the interevent times follows a power-law distribution both at the level ofpopulation and individual. Here, we study three large data sets containing the information aboutweb activities of humans in different contexts: Blog-posting, Wiki-revising,
4、 Bookmarking. Westudy in details interevent statistics. In all cases, the distributions of the interevent time decay powerlike as increase at both individual and population levels. Unlike previous studies,we put emphasis on time scales and obtain heterogeneous decay exponents in the intra- andinter-
5、day range for the same dataset. Moreover, we observe opposite trend of exponents inrelation to individual activity. In blog-posting, we found significant short-term correlation whichis different from the previous results. Interestingly, when the time lag K is less than 10 thecorrelation coefficient
6、decays as a power law and when K is more than 10 it decreaseexponentially. In wiki-revising, investigations show that the presence of intra-day activities maskthe correlation between consecutive inter-day activities and lead to an underestimate of memory,which explain the contradicting results above
7、. Removal of data in intra-day range reveals thehigh values of memory and leads us to convergent results between wiki-revising andblog-posting. In bookmarking, Instead of monotonically increasing with activity, inter-dayexponent peaks around 3. We further show that the global distributions of less a
8、ctive users arecloser to exponential distribution than the ones of more active users. Moreover a universalbehavior in the inter-day range is observed by considering the rescaled variable. In order toexplain these observations, A simple model based on the personal preference was supposed by us.There
9、are two main rules in this model: (1) the more the user performs an activity recently, themore likely he will do it next; (2) there exists occasions that users choose what to do randomlywith independent probability. Different from the previous studies which only focused on theexponent, our model rep
10、roduced all these three key features: the heavy-tails, the strongshort-term correlation, the dependence between the exponents and Activity. We also discussedthe possible causes of the two regimes in the decay curve of correlation coefficient. Our findingsIIAbstractmay provide insight into not only t
11、he origin of heavy-tails but also the predictability in humanbehaviors.Key Words: human dynamic interevent time correlation intra-day inter-daypower-law blog wiki deliciousIII中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作
12、者签名:_ 签字日期:_中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中国学位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。公开 保密(_年)作者签名:_签字日期:_导师签名:_签字日期:_第 1章 绪论第1章 绪论1.1 数据时代的到来 “认识你自己”, 就如同这句刻在阿波罗神殿石
13、柱上的铭文历史悠久一样,人类对我们自身的了解和探索从科学的起源的时候就从来没有停止过。并且这种探索所带来的知识是随着每一次方法的进步而爆发性增长的。四百多年前,少数学者(比如维萨里)第一次突破宗教的禁锢,开始从解剖学的角度研究人体结构和组织。这一举动给我们带来了丰富的生理知识,比如血液循环,呼吸的机制等等,最终据此发展起来的知识奠定了当代医学的基础,解救了无数人的生命,大大地延长了人类的平均寿命。而这种方法带来的最顶端的知识就是脑科学以及神经学。大脑神经网络的发现曾一度让发现者们兴奋的认为找到了揭开人类行为机制的终极工具。尔后几十年的发展,随着复杂性物理科学的理论和方法的长足发展,并将其应用于
14、神经科学领域。特别是复杂网络方法的应用,使得人们可以从解剖学上的神经连接层面以及动力学来研究复杂的神经网络结构1,2,3。但是要据此来理解和模拟大脑的运作及其怎样支配人类的行为仍然遥不可及。人脑神经网络的巨大和复杂性,让任何想直接用计算机来模拟其运作的人绝望。在另一类学科中,比如社会学,心理学4,5等等,对人类行为的研究一直基于一种完全不同的方法在进行着。这就是“问卷调查”,这是一种以书面提出问题的方式搜集资料的研究方法,研究者将所要研究的问题编制成问题表格,以邮寄的方式,当面作答或者追踪访问方式填答。学者们对以这种方式收集来的数据加以整理和统计, 然后以此来了解人们的观点和行为倾向。虽然这种
15、费时费力的方法带来的数据往往是有限而且有时甚至是偏颇的,但在这些学科发展的几百年间,这种方式几乎是唯一的主动获取与人类行为有关的数据的有效方法。尽管偶尔,某些研究者能从一些政府材料中(比如会计卷宗)发现一些宝贵的记录了一定数量的有关人类行为的数据。相比之前从人脑内部的机制来理解人类行为,这种方式绕开了复杂的生理机制和神秘的脑科学而直接从外部来观察人类行为,通过总结一些经验规律来定义人类。实践证明,这种方式确1第 1章 绪论实带给了我们很多宝贵的知识,并让我们对人类的了解上升到了一个新的高度。但是正如之前所说的,通过少量的数据得到的分析结果往往有失偏颇,问卷调查本身耗时耗力,都大大局限了仅通过这
16、种方式所能获得知识。然而计算机的出现,信息技术的发展,则彻底改变了之前人类行为数据稀缺的状况。实际上我们迎来了一个数据极度丰富的时代。首先是70年代以来的个人电脑普及,当代手机,GPRS定位仪等电子产品的广泛应用。人们通过电脑的每一个操作理论上都是可以记录和收集的,而且相比问卷调查要方便很多。比如鼠标的移动,点击,链接的访问,文件的修改,命令的输入都能够被准确的记录下来,成为很好的研究对象6;手机携带者的通话记录,包括时间,对象,甚至地点等等7,这些巨量的信息(往往包括几百万人)能给予研究者非常详细的人类活跃和个人迁移信息,并真正能够有效的统计出人类行为中的一些普遍规律8;GPRS定位仪等辅助
17、工具在汽车上的广泛应用给城市交通管理及其理论的实证研究带来了一场革命。图.1.1 web2.0应用的特点和内涵。91.2 Web2.0(博客,维基,美味书签) 2第 1章 绪论也正是因为电脑的大量普及,而当这些个人电脑互相连接起来后,另一个划时代的发明产生了:互联网。互联网的诞生导致了大量信息的数字化,当然也包括了人类行为的信息10,11。而这种人类行为信息化的过程随着一个web2.0的产生而达到了一个前所未有的高度。Web2.0实际上是为了区别于早期传统的互联网的一类应用的统称。其主要特点在于其用户的参与性以及网站和用户之间的交互性。不同于传统的网站信息的单向发布模式,web2.0网站上的内
18、容通常都是用户自己发布的,因此用户实际上在这里一方面既是内容浏览者同时也是内容产生者。而交互也不仅发生在发布内容过程中现实与服务器之间的交互,也包括用户与用户之间,甚至是不同网站之间也存在着大量的信息交互。也正因为有了用户的大量参与,使得这些网站上记录了丰富的用户行为数据,比如说发文信息,回帖信息,商品买卖,用户登录,照片上传等等。通过对这些数据的研究,可以极大的丰富我们有关人类动力学行为的知识。图.1.2 Web 2.0所涵盖的内容非常广泛,包括了很多网站,比如 Google Adsenc, Flickr,wikipedia, facebook, twitter。也包括很多 应用,比如标签,
19、RSS聚合,网络书签等等。此图来自10广义的web2.0相关应用和网站中包括很多概念,如图1.1,这里就不一一说明。但是有三类非常典型的web2.0应用,同时正好是本文的研究对象,需要详细的描述一下。3第 1章 绪论1.2.1 博客首先是博客(blog)。英文全名叫web log,意思就是“网络日志”,而后被缩写为Blog.它是以网络作为载体的,能够方便快捷的发布个人心得,并能及时有效的分享给他人一个网站平台。每个blog其实就是一个网页,通常是由一些经常更新的帖子所构成,而且帖子一般按照年份和日期倒序排列,如图1.3。Blog的内容则和blogger(博客主人)本人有很大关联。会有些公司或者
20、社团,以发博客的形式来发布消息,不过大部分博客仍然以个人为主。因此内容非常随意,从照片,日记,诗歌,散文,甚至小说都有。不过简而言之,仍然和他的名字(web log)相照应,就是在网上写的日记。从1998年,“博客”这个概念在美国诞生以来,它已经经历了长足的发展。据有关统计,2007年中国博客数量已经达到了1亿之多13。现在国内基本上只要是大型的网站(比如新浪,搜狐),都会提供相关的博客服务。并且作为一种全新的媒体模式,对传统的媒体带来了巨大的颠覆。图.1.3 某个新浪用户的博客4第 1章 绪论图. 1.4 维基百科的某个页面1.2.2 维基另外一类非常著名的应用则是wiki(维基)。它是一种
21、多人协作的写作工具。维基站点可以有很多人维护,每个人都可以对同一主题发表自己的意见,或者对主题进行扩展和探讨。和博客不同,维基站点一般会严格围绕一个共同话题。博客的博文只有博主才有权修改,而维基中的页面是任何人都可以修改的。因此一旦修改者的内容超出了原来的主题,或是被他人认为并不正确,都会又被其他人修改回去。也正是因此,维基上常常会有人因此彼此意见不同展开所谓的“editor war”即双方对某个页面多次修改。在众多的维基网站中,最著名的要属于维基百科(wikipedia)了14,如图1.4。它是一个自由,免费,内容开发的百科全书协作计划,参与者来自世界各地。维基百科开始于2001年1月15日
22、,而其中文维基百科则开始与2002年10月。截至2008年4月4日,维基百科中的英文百科已经有231万个条目,而所有255种语言的一共突破1000万个条目,总登记用户也超越1000万人15。维基百科作为后起之秀,在诞生起第五年就远远超越了著名的老牌百科全书大英百科全书,信息量超过了后者12倍之多。在很大程度上已经接近了其创办的宗旨:为全人类提供一个包括所有知识领域的自由的百科全书。5第 1章 绪论图. 1.5 著名在线书签网站Delicious的首页1.2.3 社会化书签社会化书签则是另外一个很有用的web2.0的应用。它可以让用户将网站随时加入自己的网络书签中,并用很多关键词标识(tag)整
23、理起来与他人共享。这样的网站不仅能让你方便的记录下喜欢的网页,同时通过相应的标签(也叫tag),或者浏览他人的收藏来发现自己感兴趣的网站。还可以找到与个人兴趣相近,持续关注某个领域的高活跃性用户,通过加其为好友来跟踪别人的收藏,以此来关注某一领域出现的新网站。而所有社会化书签最著名的要属于雅虎的美味书签(Delicious)了16,如图1.5。从2004年开始到现在已经吸引了千万的注册用户,拥有了上亿的网站记录。并且Delicious提供的收藏数据还成为了很多搜索引擎用来判定网站价值的重要依据之一。当然除了以上三类网站,还有很多其他类型。并且这几年随着互联网的发展,实际上这些不同类型的网站应用
24、越来越有相互融合,相互集成的趋势。像国内的开心网,人人网,国外的facebook等,很多社交性网站提供的服务已经囊括了主要的web2.0应用了,比如博客,论坛,书签,相册,游戏等等。 同时6第 1章 绪论越来越多的人接触和使用这些应用,在互联网上联系旧朋友,结交新朋友,享受网络带来的“海内存知己,天涯若比邻”的感觉。当然这样的趋势对于我们研究者的好处则是带来了空前海量的人类行为数据等待着我们去分析和理解。1.3 人类动力学的实证 1.3.1 普遍的幂律和标准类这些丰富的数据吸引了从物理学,计算机到社会学,心理学等广阔的学科的学者。早期,对于这些数据的分析,学者们大量使用了传统的数理统计方法,并
25、且在此基础上慢慢进化为一门专门的学科“数据挖掘”17;同时近十年来,作为另一种数据分析方法,图论被大量应用,并让“复杂网络”作为一门新兴的交叉学科飞速发展起来18,19,20,21。这种方法的核心就是把数据里不同个体看成节点,而个体之前的相互作用数据看成连边,这样形成了一个网络的图景,并利用传统图论中的一些特征量来研究这个“网络”。在研究在线社区的时候,社区里的每个人的主页往往被看成一个节点,而主页上的好友链接则看成连边22。研究手机用户行为时,每个手机用户则被看成节点,而彼此的通话则看成连边7。不过这里网络的连边数往往是各节点相互作用的累积量,这样的对待本质上把动态的网络静态化了,这主要是因
26、为图论中的各种测量方法也都是只针对静态网络的,有关动态网络的刻画实际上是没有现成的理论的。比如,在在线社会关系网中友情链接的建立其实是一个动态过程,用户往往时逐渐增加一些好友,有时还会删除一些许久不联系的好友,但是由于文献中是往往不考虑这个动态过程的,直接以现有好友数作为节点的度,这其实只是反应了一个经历了长期演化后的累积量。早期,holme就注意到了这一点,通过研究在线用户的email通信间隔,他发现这里的时间间隔分布是呈幂律分布的23。这种分布说明,在线用户之间的交流是存在很强的突发性的。而且包括著名的BA演化模型在内的几乎所有模型都没有考虑这一点,尽管这些模型往往能产生幂律的度分布24。
27、笔者曾经检验过BA模型中连续两条连边的建立的时间间隔分布,确实也时呈指数分布,而不是实证中的幂律分布。7第 1章 绪论图.1.6 泊松序列和肥尾序列的不同。(a),(b),(c)分别为一泊松序列的时序和分布图;(d),(e),(f)分别为以幂律序列的时序和分布图。26不过真正对时间间隔(两次连续行为之间的间隔)的分布的幂律性的普遍证实和关注则是之后barabasi等人的集大成的工作25,26。图1.6中显示了指数和幂律的间隔分布的不同,可以看到幂律分布存在着非常多长间隔这是指数分布中不可能有的,这对应着的行为特点就是人往往会在经历了很长时间的暂停后又会突然密集的从事某事,因此又称这样的行为特征
28、为突发性(burstiness)。他们研究了email, 通信,网站访问,图书借阅,股票交易等五种行为,并在这些行为里都发现了呈幂律的时间间隔(或等待时间)分布26。结合早前零星的证据,显示出这种特征是人类行为中的普遍规律。并且,根据他们得到的不同行为的间隔分布的幂指数,他们把人类行为大致分为两个标准类,一类以email, 网络访问,图书借阅为代表,时间间隔分布的幂指数大致为1,如图1.6;另一类则是通信,以幂指数为1.5的分布为特征26,如图1.7。值得一提的是,对于第一类,其幂指数是个人间隔分布的幂指数的平均值。实际上不同的个人的幂指数都会不同的,不过在Vzquez的结果中个人值只是围绕均
29、值的一个非常窄的区间变化。从图1.6(i)(j)(k)可以看到这里用户的行为量的分布是非常广泛的,跨越好几个量级,而准确的幂律往往只能从数据点多的用户中得来,因此他们认为这里的个人幂指数变化是有数据点不够而导致的8第 1章 绪论图.1.6 用户的时间间隔分布(a)为某一用户两次连续访问某一门户网站的时间间隔;(b)为某用户连续两次发 email;(c)在图书馆两次连续借书;(d)为股票交易员的两次连续的交易行为。可以看到(a),(b),(c)三个用户的分布都为幂律分布,其幂指数为 1。而(d)则为有指数截断的幂律分布:P( ) -1.3 exp( / 0)。 (e),(f),(g)为这三种行为
30、对应的个人用户幂指数分布。(i),(j),(k) 则是三种行为的活跃性分布。(h),(i)为“优先排队”模型的模拟结果26。误差,如果数据点充分的话,其所有用户的幂指数都应该为1,也就是所谓的标准类。而对于第二类,幂指数为1.5的类,其指数的得来则没有这么严格,通过分析三个名人的个人通信分布(如图1.7),发现都大约为1.5,则得到存在1.59第 1章 绪论的标准类。另外通信的分布实际上是等待时间分布(一封信发出后到被回复的时间)而不是间隔时间分布。不过他们声称等待时间和间隔时间的机制应该是一致的,因此把两者等同起来。Fig. 1.7 通信反应时间分布(从收到回复的时间间隔)。(a),(b),
31、(c)分别来自爱因斯坦,达尔文,弗洛伊德三人的通信记录。主要到,这三人的分布都可以很好的被幂指数为1.5的幂律分布拟合26。图. 1.8 钱学森的通信反应间隔分布35。在解决很多商业和社会实际问题中,比如交通流模型,交通事故发生频率,呼叫中心的呼叫,存货控制问题等等, 学者们往往都是假设人的行为间隔分布为迫松分布。因此barabasi以及之前的研究,完全打破了这个传统观点。尔后的研究,包括打印间隔27, 短信收发间隔28,手机通信间隔29,在线游戏登录30,31,拍卖等待32,论坛回复33,网上冲浪34等等都进一步证10第 1章 绪论实了人类行为突发性这一基本特征。这意味着之前的那些问题的研究
32、需要重新考虑。但是,有关标准类的结论则有着广泛的争议。周涛等人的对于钱学森通信的调研显示,其间隔分布的幂指数达到2.1(如图1.8),这一数值明显高于所谓1.5的标准类35。实际上尔后的不少实证研究的发现存在许多不同的幂指数。比如,电影评价间隔分布的幂指数为2.0836;AOL网站的搜索和Ebay上反馈评论间隔分布的幂指数都为1.937;WIKI用户的登录间隔为1.237。需要说明的是,这里的幂指数值都是来自全局分布(所有用户的间隔集合在一起的分布),而不是barabasi那样个人分布幂指数的均值。Barabasi等人选择使用个人分布的一点原因是,有可能全局层次上的幂律分布并不是因为个人行为的
33、幂律,而是因为某种活跃性的分布不均38,直接分析个人层次的幂律则可以排除这一点。不过个人的数据量往往太少,而导致得到的幂指数很不严格,而全局分布则更加容易,得到的指数更加可靠,因此大多数研究采用分析全局分布的方式而不是个人分布的均值。图.1.9 不同组的幂指数随活跃性的变化规律36。1.3.2 变化的幂指数和相关性系数不仅是许多行为的分布幂指数偏离了1和1.5两个标准类,更进一步的研究11第 1章 绪论显示,用户的分布幂指数实际上是和其活跃性(个人用户的平均间隔时间的倒数)呈正比的36。这一结论最早来自周涛等人的研究,他先是根据活跃性对不同的用户分类,每一类用户产生一个集体间隔分布,通过拟合这
34、个幂指数他发现,分布的幂指数与活跃性呈现单调的递增关系,如图1.9,其表达式为:1(A) =1+ 1 A ,0 1 4p( w 1) 2 2 这里 P( w )为等待时间间隔 w的分布概率。而在 P 0的极限下,从式1.2可以得到:lim P( w) = 1 w (1.3) 2 p0即,P( w )指数衰减,这和之前的结论是一致的。这种方式对应于完全随机选择,18第 1章 绪论任务在每步以1/2的概率被选择。在 P 1的极限下从式 1.2可以得到: 1 p 21+o ln(1 p) , w =1 lim P( w) = 1 p 1 1w(1.4)p 1 o ,1 w 0 2 这里: 12 0
35、= ln + (1.5)1 p 在这样的情况下,所有任务的等待时间间隔 w 都为1,意味这一旦加入列表就会马上被执行。而在第一步没有被选择的任务的等待时间间隔将会以指数为1的幂律衰减。当 p 1时的 P( w)分布则为指数截断,这可以从式1.2推出,取 w ,p为 定值,则有结 果:P( ) 1 p2 w 01w exp w (1.6)4 当 P 1时,我们可以得到 0 ,因此指数截断实际上被转移到更大的 w处,而幂律衰减 P( w) 1/ w变得占主导地位。而当长度为无限的情况下,等待时间分布则变为1.5。这个结果正好解释了其在实际数据中观测到的所谓的“指数分别为1和1.5标准类”。不过此类
36、暂时还没有解析解,只能通过数值模拟来得到。需要指出的是“优先排队”模型实际上只是针对等待时间分布,它需要假设等待时间和间隔时间的一致性才能把模型推广到被更加广泛研究的间隔时间分布。正如上文提到的,很显然,这个模型的时间序列是不相关的。最后,这个模型只说明了固定两个幂指数1和1.5的成因,而既没有考虑其他值的幂指数,更没有考虑可能的幂指数和其他量(比如活跃性)之间的关系。19第 1章 绪论图. 1.16 “联级异质泊松过程”的机制示意图。A过程代表用户存在星期为周期的变化,每到周末活跃性都会降低。B代表以天为周期的变化,昼夜活跃性的更替。C代表两种机制的叠加。E代表行为的联级,每次产生行为后会有
37、连续产生相应的行为。F为联级发生后的结果40。1.4.2 异质联级泊松过程“异质联级迫松过程”(下文中有时会简称“异质泊松过程”)则是另外一个用来解释在人类行为中发现的幂律分布的重要模型39,40,41,42。这个模型的特色的地方在于,它使用只能产生指数分布的迫松过程,通过一些看似非常合理的修改,而产生出了幂律分布。他们认为,在每一天的不同时间以及每个星期的不同天,都会有一个相应的概率值可以来描述人做某件事情的可能性,如图1.16所示。分别用周期函数 pd (t)和 pw (t)来代表,其 对应的周期为一天和一星期,这样某人在某一个具体时间从事某件事情的概率则为:(t) = Nwpd (t)p
38、w(t) (1.7)这里 N是指的平均每个星期的行为量。以上过程在此模型中被称为主过程。此w外,他们还引入了一种所谓的联级过程,如图1.14E和F。这是指每当由主过程产生一个行为之后,这个行为会触发一副过程,此过程中会以概率 P行为。附加行为数 N P(Na)决定的,一但 N个附加行为完成,a产生附加aa 是由分布函数个人行为又会再次被主行为所控制。此模型和“优先排队”模型不同,这里得20第 1章 绪论到的是两个连续行为的间隔时间分布。而且他们并不认为有某种固定幂指数的普遍类存在,而是通过调节相应参数对每个人的行为分别进行的拟合,如图1.17。并且得到了很好的效果,当然这也可能是因为这个模型的
39、可变参量比较多的缘故。总的来说这个模型的思路是非常简单的,它的核心过程其实就是两个不同层次的周期过程:天和星期。也就是说它用两个迫松过程的叠加解释一个非迫松过程,而此过程在传统的观点来看是和迫松过程有着本质区别的。在尔后的工作中,实际上他们也确实对这一点做了更深入的探讨。图. 1.17 利用“联级异质泊松过程”通过调节相应参数对不同的个人做的拟合40。1.4.3 自适应兴趣模型周涛等人的实证工作就提出存在另外一种基于兴趣的人类行为36。而韩晓璞等人则是遵循同样的思路,建立了所谓“自适应兴趣”模型43。这个模型的核心假设在于发生某个行为的概率值会随这之前的行为发生变化。而这个变化函数为: a0,
40、 i T1,i T2,a(t) = a01, (1.8)a(t 1), T1 i T2.其中t为时间步长, 为离上次行 为的间隔,T1,T2为最小感受时间段,时间每变化一步发生行为概率r(t)变化为r(t+1)=a(t)r(t)。当没有任何行为发生的时候,这个量维持不变。此模型实际上是模拟了人的兴趣的变化过程,当行为间隔过于密集的时候,兴趣会有所减弱,而当很长时间没有做某事情的时候,人有会增加对之的兴趣。当a0 = 0.5,并且T2 T1时,通过数值模拟可见,它能产21第 1章 绪论生一个幂指数为1的时间间隔分布,如图1.18。从图1.19中也可以看到其实这里的间隔序列是存在某种准周期规律的,
41、每次都会有一个频率逐渐增加然后减少的过程,并且这两个过程显然可以看成是对称的,在下面的解析过程中将会利用到这里的准周期过程。首先假设当前发生行为的概率为r( t) = rma0i,则下一次在时间t + 发 生此行为的概率 为:Q( ) = (1 rma0i ) 1rma0i (1.9)考虑每次减少过程中r(t)值,所有减少过程中的间隔分布为:IP( ) = I 1(1rma i0 ) 1rmai0 (1.10)i=0更加准周期假设,总分布也可以用上式表示,上式的连续形式可以表述为:P( ) I 1 I0(1 rma0x) 1rma0xdx (1.11)因此, P( )能被进一步表示为:P( )
42、 (1 rma0I ) (1 rm) (ln a0)1I 1 1 (1.12)对于等式1.12,当rm为固定值,I足够大时(相当于T 2 T1),P ( )则为幂指数为-1的幂律分布。而当此条件不满足是,从式中可以看到其分布为一个指数分布。在文章中作者并没有讨论这个模型产生的间隔是否有相关性,但是仔细观察图1.19可以看到,这个序列应该是有相当的相关性的。因此如果比较GOH的实证结果:人类行为中的相关性很弱。那么这个模型就会有站不住了。另外这个模型默认了标准类的存在,因此被认为给出了幂指数为1的标准类的行为的另一种解释。不过和周涛等人的实证不同的是,这个模型并没有产生其他幂指数的分布,当然也无
43、法解释在实证中观察到的幂指数与活跃性正相关的现象。22第 1章 绪论图.1.18 “自适应兴趣”模型产生的间隔分布图. 1.19 “自适应兴趣”模型产生的间隔序列43。1.4.4 其他模型以上三个是比较重要的模型,除此之外还有考虑了相互作用之后的“排队”模型,此模型的优点在于通过调节参数可以得到从-1到-2的幂指数44。“记忆”模型则能得到比2更高的幂指数45。尚明生等人则提出了另外一个基于兴趣的模型,并能产生幂指数为2或3的间隔分布46,另外还有一个比较有意思的模型是所谓的一维随机游走47,这个模型非常简单,就是把个人看成是在一条有中心点的直线上随机游走,然后间隔被看成连续两次到达中点的间隔
44、,23第 1章 绪论如图1.20。它产生的间隔分布为-1.5。这个模型实际上在这之前就被用户很多其他场合,而用在人类动力学上则是Gotz等人48。由于随机游走是一个非常常用的概念被用于解释在线用户的很多其他行为特征上,比如信息的扩散,上网用户点击网页就常被看成随机游走的一种。因此用随机游走来解释间隔分布的幂律特征意味着有可能把之前其他一些有关的行为特征统一在一个模型里。不过现在的研究还远没有达到这一点。图. 1.20 “一维随机游走”示意图471.4.5 模型与实证从06年barabasi在Nature上广受关注的有关人类动力学文章以来,已经有很多模型尝试去解释所观察到的幂律的间隔(或等待)时
45、间分布。但是问题也在于所有的模型都只是关注“分布”而乎略了作为一个行为的时间序列,不仅仅就是间隔的分布就能完全刻画的,还有即便是完全相同的间隔分布,其真正的间隔序列也可以完全不同的。在传统的时间序列分析里,一个很重要的量就是相关性系数。Goh等人初步研究显示人类行为的间隔序列里的相关性是非常弱的,这是一个和我们的常识相背的结果,但是还缺乏进一步的解释和证明38。而且现有的模型也完全没有对这方面的讨论。其实仔细分析上面的模型,“优化排队”,“异质迫松过程”产生的显然是完全没有相关性的序列,而“自适应兴趣”模型则很可能有比较强的相关性的,这还包括“记忆”模型。如果GOH的结果是普遍的话,那就意味这
46、后面两个模型就无的放矢了,可惜现在无论是进一步的实证还是相关模型的探讨都还没看见。周涛等人发现的幂指数与活跃性的幂指数关系虽然得到了Filippo等人的证实36,37,但是利用模型对其的24第 1章 绪论解释则同样至今还没有出现。因此,可以说现在还只是解开了人类行为动力学面纱的一角,巨大的未知还藏在面纱下面。图. 1.21 (a)40个用户在一个星期内的移动轨迹。(b)某个用户的移动轨迹,其中绿色的点为手机发射塔。(c)两套数据库用户的移动间隔分布。(d)两数据库的回转半径分布8。1.5 人类行为的空间统计特性 除了上面讨论的人类行为的时间间隔分布中广泛存在的肥尾特征以外,最新的研究也证实,在
47、人类行为的空间间隔分布中也存在有相应的肥尾特性。早在2006年通过统计账单传递49,人们就间接的发现了人类的旅行行程分布存在接近于幂律的肥尾;2008年,Gonzalez等人通过统计手机用户的漫游过程的研究8,得到了与之前一致的结果:分类行程分布具有肥尾特性,如图1.21。更直接的证据则来源于GPRS的数据统计结论50。此外,在生物学观测中也发25第 1章 绪论现了大量动物物种的运动具有类似幂律形式的行程分布51,52,53。由于幂律分布的特点,存在较高概率的长程运动,因此,和时间间隔分布一样,也是无法用经典的随机游走进行描述的。这种分布的广泛性,也促使人们去思考其背后的动力学机制,并提出了不
48、少具有启发性的模型:觅食效率优化模型54,55,嗅觉梯度机制56,确定性行走57等。不过无论是人类行程还是动物的觅食,有关内在原因的探讨仍然是一个非常开放的问题。并且这种空间上的幂律分布对于城市交通,人流控制,紧急避险等系统的改良有着重要的实践意义。1.6 研究意义 人是构成我们这个庞大而复杂社会的基本单元。因此,当我们希望了解和模拟任何这个群体中发生的现象和过程的时候,有关人这个基本单元本身的动态特性的知识则是永远无法回避的58。然而,人本身又是一个如此复杂的存在,研究起来甚至可以说不见得比研究社会来得简单。多亏了信息和数据时代的到来,让我们即便在没有掌握人的内在运作机制的情况下,通过大量的外在行为数据的实证研究,能总结出很多宝贵的规律并能据此归纳出一些唯象的模型,并把这些知识运用到社会建模的方方面面59,60。其中一个重要方面就是之前谈到的社会网络的演化。怎样同时理解社会网络中的度分布(网络中的度往往是人类行为的累积量)和行为间隔分布的幂律性是现在社会网络建