1、网络信息老化研究,网络信息老化的基本问题 网络信息老化的研究现状及发展趋势 网络信息老化的测度指标 网络信息老化规律的研究实例,1 网络信息老化的基本问题,网络信息老化研究的意义- 是网络计量学研究的重要组成部分,对网络计量学学科体系的发展与完善有重要的理论意义;- 更有效的指导科研人员的实践;- 更好的进行网络站点的资源建设;- 更好的帮助情报人员搜集定向传播网络信息。 网络信息的限定是依附于计算机存储设备,可以在网上传输、识别、利用的可稳定获取,在一定时间内可固定访问的信息单元,包括网络报刊、网络数据库、网络图书等信息集合,以及以HTTP协议传递的网页、用专用通信线路访问的数据库。不包括那
2、些在网络上以TELNET协议传递的人机互动信息,如聊天、私人发布的新闻贴、以及以FTP、E-mail传递的私人文件等。,1 网络信息老化的基本问题,网络信息老化的原因网络信息资源的老化是指网络信息资源中情报的有效价值随着时间的流逝逐渐衰减,利用率逐步降低直至存档甚至销毁。主要原因:- 网络信息资源的增长- 网络信息的更新- 网络信息的消失- 网络信息的语用衰减- 替代性网络信息的出现- 网络信息的吸引力,据CNNIC统计,2002年12月31日,全国网页总数为157091220个,字节总数2877754095KB;2003年12月31日,全国网页总数为311864590个,字节总数为60594
3、31526KB;2004年12月31日,全国网页总数达到650682300个,字节总数为20537214718KB,与2003年相比,增幅分别为108.6%和238%。,网络信息更新是指网络信息在载体形态、数据组织方式、网址等外在特征不变的情况下,所含知识和情报在内容上的变化。1998年和1999年,Bar-Ilan和Peritz发现在6个月内近50%的网页发生了变化;Wallace发现97%的网站6个月内会发生变化,如观察时间为1年,则比例上升为99%。对于网页而言,这组数据分别为98.3%和99.1%。这里网络信息更新并没有引起网络信息总量的增长。,网络信息的消失是指网络信息无论出于何种原
4、因,被从系统中删除,不能再被访问和利用。有研究表明,68%的网页1年内将被从网页上移除,有12.2%的网站和20.5%的网页6个月后不能再被访问到,1年后,分别上升到17.7%和31.8%,并且,每周有0.5%的网页和网站消失。网络信息的消失意味着网络信息总量的减少。,网络信息的吸引力主要来自两个方面:一是网络信息所揭示和反应的对象所出的发展阶段了认识网络信息的收关注程度。,1 网络信息老化的基本问题,网络信息老化的特点- 快速性- 非载体依赖性- 动态性- 复杂性,1 网络信息老化的基本问题,网络信息老化的类型- 静态老化:不考虑网络信息增长因素影响的老化过程。- 动态老化:考虑网络信息增长
5、因素影响的老化过程。- 局部性老化:某一网站内或文献信息数据库内文献利用率降低的过程,运用信息管理统计数据分析方法研究。- 普遍性老化:是指某一学科或世界范围的网络信息 老化过程,运用引文分析法、链接分析法研究。- 历时老化:是指某一站点某一时间内发布的信息被引用或被链接次数随时间而减少的过程。- 共时老化:是指某一站点某些站点或某类站点内不同时间的信息被引用或被链接数在现时刻的时间分布表现出来的网络信息老化状态。,2 网络信息老化规律研究现状,国外研究现状目前国外对网络信息老化研究主要分为两种类型:- 专门对网络信息老化的研究- 对网络信息增长和信息老化的综合研究,2 网络信息老化规律研究现
6、状,国外研究现状(1)Harter,Kim对电子期刊中的网络引文正确性和完整性进行研究,发现即使在当年,有1/3的网络引用是不可用的,同时得出电子期刊的网络引文半衰期为1.5年。最早开展学术期刊和网络引文的可用性研究。(1996)(2)Germai利用CiteSeer数据库对期刊论文中网络引文的可用性进行研究,发现网络资源在快速增长的同时,其中的许多网络资源在几年内就不可用了。而80%的失效网络引文可以找到高度相关的网页。他们分析了网络引文失效的原因,主要是个人网页随着研究者离开而消失和很多网站在重建后没有保留以前的链接。(2000),2 网络信息老化规律研究现状,国外研究现状(3)Nelso
7、n和Allen选取了20个网上可访问的数字图书馆,从每个数字图书馆中随机选取50个对象,对这1000个对象的可用性每周核查3词,获得161个样本数据,研究结果表明仅有31个对象不可访问。(2002)(4)Wallace Koehler对网络链接的可用性研究较多。他将网页的访问状态分为三类:一直可访问的网页、间断可访问的网页和不可访问的网页,同时针对网页不可再被访问的情况进行了深入研究。同时他还对经典半衰期计算公式进行改进,得出网络信息的老化周期为1.5年,还有一点该网页已经超过半衰期,就会变得相当稳定。(2004),2 网络信息老化规律研究现状,国外研究现状(5)Markwell和Brooks
8、从2000年8月开始至2002年,每个一个月均对选定的教育科学网络资源的URL可访问的比例进行研究,结果发现16.5%的URL失效或内容发生了变化,其中失效最快的是域名含有edu(17.5)、com(16.4%)和org(11%)的URL。(2002)(6)zif Bar提出一套测度网络信息老化的办法和有效的计算方法,并将其应用到搜索引擎、网页维护者、本体和个人用户。(2004)(7)Robert P对JCR中Top1的杂志NEJM、JAMA、science中2003年1月1日前6个星期内发表文章的网络引文可访问性进行了研究,发现3个月内失效的网络引文为3.8%,15个月内失效的为10%,27
9、个月内失效的为13%。(2003),2 网络信息老化规律研究现状,国外研究现状(8)J.Bar-Ilan以“信息计量学”主题相关的网页集合为对象,分析网页数量在5年间的变化和修改情况。发现,在特定时间段内,“信息计量学”的网络文献集合发生了变化,呈现出三种趋势:主题网页数量总体上有增加、有网页不可链接或消失、有网页内容发生修改。(2004)(9)Jose Luis以738个网站为研究对象,使用爬行程序提取这些网站的结构和内容,观察他们1997年和2004年者两个时间点的变化情况,比较发现网络信息呈现出较强的动态性和不稳定性,网络信息的增长和消失都是很显著,研究结果表明,7年间,原有网页的75.
10、22%消失了,死链接增长到74.28%,而与此同时新网页的增长率达到156.8%。(2006),2 网络信息老化规律研究现状,国外研究现状(10)Daniela和Micheal以新闻传播领域的主要期刊为例,对2000年至2003年报考的1126个网络引文的URL进行了可用性研究,结果表明2004年只有61%的网络引文仍可用,通过计算得到该类期刊的网络半衰期为3.17年。(2007)(11)Dion和Peng Kin以三种情报学领域顶级期刊的网络引文为研究对象,下载从1997年到2003年间的期刊论文,提取论文中的链接,发现该学科的链接衰减半衰期为5年,且各类链接中教育网主要的链接衰退比例最高,
11、达到了36%。(2007),2 网络信息老化规律研究现状,国内研究现状(1)王宏鑫和邱均平认为网络信息老化研究的主要任务是找出网络信息老化的测度指标,采用数学、统计学等各种定量方法对网络信息老化进行定量描述和统计分析,以便揭示网络信息老化的数量特征和内在规律,建立相应的数学模型并提出理论揭示体系,其内容包括网络信息老化的测度研究、网络信息老化规律研究和网络信息老化规律的应用研究等。(2004)(2)段宇峰分析了网络信息老化的原因,指出衡量网络信息的老化状况应该从网络信息自身的生命周期和被利用情况两个方面进行考察,提出以网络信息静态半衰期、动态半衰期和生存期作为衡量网络信息自身生命周期的指标,以
12、宏观网络信息半衰期和围观网络半衰期作为衡量网络信息被利用情况的指标。2009年提出测度网络信息效应衰减的HLout和HLin指标,并进行了实证研究。,2 网络信息老化规律研究现状,国内研究现状(3)吴志强以两份中文核心期刊1999-2003年所刊登学术论文中的网络引文为对象,考察了网络引文可追溯性与时间的关系,网络引文可追溯性与出处网站类型、网络资源、语种等的关系,网络引文的不可追溯性的类型;不可追溯性网络参考文献的再检索等问题。(2008)(4)张瑞将网络信息老化研究与传统文学信息老化研究进行了比较,并指出了网络信息老化的测度指标、计算方法、基本研究对象及意义,并将网络信息半衰期划分为历史半
13、衰期和共时半衰期。(2009),3网络信息老化的测度指标,半衰期网络信息资源的基本构成元素有半数发生变化所需的时间。 (1)被引半衰期。针对某个站点的被引用过程而言,可以定义为某一站点的全部信息在某一时间段内被引用或被链接的所有信息中较新的一半是在最近多长时间内发表的。是衡量该站点信息老化速度的指标,用于分析比较同一学科各站点在学术界的影响程度,一般来说,被引半衰期长的站点比被引半衰期短的站点影响要深远些;用于比较同一站点在个年度的被引半衰期的大小,则能为评价该站点在不同时期内发展程度及好坏提供依据。如网上某文档的半衰期是1.5年,就意味着该文档所获得入链的链源所在网络信息资源的50%出现与其
14、发布后的1.5年内。,3网络信息老化的测度指标,半衰期(2)引用半衰期。针对某一站点上信息的引用行为而言,可以定义为某一站点的全部信息在某一时间段内引用或链接的所有信息中较新的一半是在最近多长时间内发表的。它是该站点上的信息生产者引用行为的一个时效性指标,通过对站点引用半衰期的计算,指导该站点的信息更新,帮助科研人员在科研活动中获得最新的一手资料。例如,如果我们说网络计量学的网络信息半衰期是1.2年,就表明在我们进行统计研究的那一年里,在网上发布的网络计量学文献中的链接所指资源的50%是在最近1.2年内发表的。,3网络信息老化的测度指标,半衰期(3)静态半衰期。是指在不考虑增长的情况下,网络信
15、息资源的基本构成元素有半数发生变化的时间。例如,以网页为基本构成元素,考察网站A的静态半衰期。假设网站A有10000个网页,每个月有1000个不同的网页发生变化,并且有100个网页消失,根据上述定义,网站A的静态半衰期为:100002(1000+100)=4.55月或0.38年,3网络信息老化的测度指标,半衰期(4)动态半衰期。是在考虑增长的情况下,网络信息资源的基本构成元素中较新的一半产生于多长时间内。例如,在上例的基础上,假设网站A每个月新增500个网页,根据定义,网站A的动态半衰期为:100002(1000+500)-(500-100)=3.85月或0.32年,3网络信息老化的测度指标,
16、半衰期(5)宏观网络信息资源半衰期。指某主题领域网络信息资源所含链接的链宿所指资源中较新的一半是在多长时间内产生的。例如,如果说网络计量学的网络信息资源半衰期是1.5年,就表明在进行统计研究的那一年里,在网络上发布的网络计量学文献中的链接所指资源的50%是在最近1.5年内发表的。基于网络信息资源中的链接。,3网络信息老化的测度指标,半衰期(6)微观网络信息资源半衰期。是指指向该网络信息资源的全部其他网络信息资源的二分之一是在其发布后的多长时间内出现的。例如,网上某文档的半衰期是2.0年,就意味着该文档所获得入链的涟源所在网络信息资源的50%出现于其发布后的2.0年内。,3网络信息老化的测度指标
17、,普赖斯指数 生存期是指特定网络信息资源的URL存续时间,4 网络信息老化规律的研究实例,HLout测度 出链:网页S指向外部资源(网页集1)的链接(出链,outlinks) 入链:网页S被外部资源(网页集2)所链接(入链,inlinks) 出链是对其指向资源价值的肯定,即使是批判价值,将其记为Hlout 入链是信息价值和效用的体现,有价值的信息才能够获得来自于其他信息的链接。,4 网络信息老化规律的研究实例,HLout测度 具体步骤: 1)从webCPS(网络数据分析工具)的数据库中以随机的方式抽取10万个属于中国IPv4地址段的URL及该文档的最后修改时间,分别记为URLsample和Ts
18、ample。 2)访问URLsample,提取文档中所有的出链信息,分别记为URLoutlink1, URLoutlink2, URLoutlinkn。访问URLoutlinks,记录对应文档的最后修改时间, Toutlink1, Toutlink2, Toutlinkn,若URLsample或URLoutlinks无响应,则直接访问下一个样本。 3)计算并记录Tsample- Toutlink1, Tsample- Toutlink2的值。 4)重复以上步骤,直至处理完所有样本。 5)排除小于0的值后排序,计算中值,该值即为中国网络信息的HLout。 重复上述过程,能够获取OECD确定的24
19、个发达国家的HLout。,4 网络信息老化规律的研究实例,HLin测度 具体步骤: 1)从webCPS(网络数据分析工具)的数据库中以随机的方式抽取10万个属于中国IPv4地址段的URL及该文档的最后修改时间。 2)将该URL提交给Yahooo!site Explorer,获得该URL的inlinks信息,分别记为URLinlink1, URLinlink2, URLinlinkn。若该URL无对应的inlink信息,则直接提交下一个样本URL。 3)访问URLinlinks,记录对应文档的最后修改时间, Tinlink1, Tinlink2, Tinlinkn,若URLinlinks无响应,则直接访问下一个样本。 3)计算并记录Tinlink1-Tsample,Tinlink2- Tsample的值。 4)重复以上步骤,直至处理完所有样本。 5)取大于0的值排序,计算中值,该值即为中国网络信息的HLin。 重复上述过程,能够获取OECD确定的24个发达国家的HLin。,