1、基于主题的 Web 信息采集系统的设计与实现李盛韬,赵章界,余智华(中国科学院计算技术研究所 软件研究室,北京 100080)摘 要:基于主题的 Web 信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题 Web 信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题 Web 信息采集系统。关键词: 信息采集;信息检索;信息处理;主题Email: ; ; 中图分类号:TP391 文献表示码: A基金资助:中科院计算所领域前沿青年基金资助(资助号 20016280-8 )Design and Realizati
2、on of Focused Web CrawlerLI Sheng-tao,ZHAO Zhang-jie,YU Zhi-hua(Software Division, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China)Abstract: Focused web crawling is a new and practical direction in the field of information retrieval. And it also is a research ho
3、tspot in the information processing technologies. This paper argues the principles, difficulties and measures of the focused web crawler, and then detailedly analyses the design of our SkyReach focused web crawler. Key Words: Web Crawler;Information Retrieval;Information Processing; Focused Crawler
4、1.引言随着 Internet 的迅速发展,网络正深刻地改变着我们的生活。截止到 2000 年 7 月,Internet 上的网页数量就已经超过 21 亿,上网用户超过 3 亿,而且网页还在以每天 700 万的速度增加8。这给人们的生活提供了丰富的资源。然而,Web 信息的急速膨胀,在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。因此,基于 Web 的信息采集、发布和相关的信息处理日益成为人们关注的焦点。传统的 Web 信息采集的目标就是尽可能多地采集信息页面,甚至是整个 Web 上的资源,而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。这样做的一
5、个极大好处是能够集中精力在采集的速度和数量上,并且实现起来也相对简单,例如 Google 采集系统在并行 4 个采集器时的采集速度可以达到每秒 100 页。但是,这种传统的采集方法也存在着很多缺陷。随着 WWW 信息的爆炸性增长,信息采集的速度越来越不能满足实际应用的需要。最近的试验表明,即使大型的信息采集系统,它对 Web 的覆盖率也只有 30-40%。解决这一问题的办法有升级信息采集器的硬件设备、提高并行能力,但是它们的能力十分有限,带来的改善效果仍远不能满足人们的需要。主题采集则可以通过对整个 Web 按主题分块采集,并将不同块的采集结果整合到一起,来提高整个 Web 的采集覆盖率。对于
6、传统的信息采集来说,待刷新页面数量的巨大使得很多采集系统刷新一遍需要数周到一个月的时间12,这使得页面的失效率非常地巨大。Selberg 和 Etzioni 在 1995 年的调查发现,通过Internet 中最常用的一些搜索引擎查询到的结果 URL 中, 14.9%的目标页面已经失效了5。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高
7、了采集到页面的利用效率。为此,我们开展了主题 Web 信息采集技术的研究,并设计实现了 “天达”主题 Web 信息采集系统。全文的组织是这样的:第二章介绍主题 Web 信息采集的基本问题;第三章给出了 “天达”主题 Web 信息采集系统的结构模型以及相关细节;在第四章里,我们给出了该系统的实现情况;最后,在第五章里展望了主题 Web 信息采集发展的动向。2.基于主题的 Web 信息采集的基本问题2.1 基于主题的 Web 信息采集的定义在 Web 信息采集的大家庭中,有一类非常重要,它就是基于主题的 Web 信息采集(Focused Crawling),也称为 Topic-Specific C
8、rawling,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行采集的行为。2.2 基于主题的 Web 信息采集的分类2.2.1 广泛主题和具体主题的 Web 信息采集按照采集主题的范围和规模,基于主题的 Web 信息采集可分为 广泛主题的 Web 信息采集和具体主题的 Web 信息采集。广泛主题是指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题的Web 信息采集也称作领域 Web 信息采集。一般这类信息采集所需要采集的页面数量较多,为了达到较高的召回率,在进行 URL 过滤的时候所设定的阈值较低、限制较宽,因此它的页面内容也相对较杂。与之相对应,具体主题涵盖面
9、较窄,意义较明确,采集规模也较小,一般进行 URL 过滤的时候所设定的阈值较高、限制较严。这类采集一般可直接服务于用户,提供更加灵活、针对性更强的服务。2.2.2 固定主题和可变主题的 Web 信息采集按照采集时能否指定主题,基于主题的 Web 信息采集分为固定主题的 Web 信息采集和可变主题的Web 信息采集。顾名思义,固定主题的 Web 信息采集在采集前和采集的过程中都不能进行主题的变更。 它一般是针对广泛主题和领域搜索引擎的,不直接服务于用户。可变主题的 Web 信息采集是指用户在采集前可设定采集主题、在采集过程中可改变主题的一种采集方式。这类采集往往设定的主题较具体,采集页面的规模也
10、较小,提供给用户的操作方式比较灵活。另外,多个此类信息采集器进行合作,分别采集不同的主题,能够完成一些更高级和复杂的服务。2.3 主题页面在 Web 上的分布特征整个 Web 上的页面主题分布是混杂的,但同一个主题在 Web 上分布却有一些规律。我们将这些分布规律总结为四个特性:Hub 特性、Sibling/Linkage Locality 特性、站点主题特性、Tunnel 特性。2.3.1 Hub 特性美国康奈尔大学的教授 Jon M. Kleinberg 发现 Web 上存在大量的 Hub 页面,这种页面不但含有许多 outlink 链接(指出链接),并且这些链接趋向于相关同一个主题。也就
11、是说,Hub 页面是指向相关主题页面的一个中心。另外,他还定义了权威页面(authority) 的概念 ,即其它许多页面都认为相关于这一主题有价值的好页面。好的 Hub 页面一般指向多个 Authority 的页面,并且所指向的 Authority 页面越权威Hub 页面的质量也越好;反过来, Hub 页面的质量越好,它所指向的每个页面也趋向于越权威。我们把主题在 Web 上的这一特性称为 Hub 特性。2.3.2 Sibling/Linkage Locality 特性在 Hub 特性的基础上,人们又提出了 Sibling/Linkage Locality 特性1。1).Linkage Loc
12、ality,即页面趋向于拥有链接到它的页面的页面主题;2).Sibling Locality,对于链接到某主题页面的页面,它所链接到的其它页面也趋向于拥有这个主题。这实际上是 Hub 特性的变形,主要是从页面的设计者设计的角度考虑的。一个页面的设计者趋向于把本页面指向于与本页面相关的其他页面。我们把主题在 Web 上的这一特性称为 Sibling/Linkage Locality 特性。2.3.3 站点主题特性我们发现,一个站点趋向于说明一个或几个主题,并且那些说明每个主题的页面较紧密地在此站点内部链接成团,而各个主题团之间却链接较少。我们认为,这主要与网站的设计者的设计思路有关。每个网站在设
13、计时都有目标,而这种目标往往就集中在一个或几个主题中。而网站的浏览者往往也有一定的目的性,这个目的性一般体现在用户趋向于浏览同一主题的页面。为了满足浏览者的这一需求,网站设计者需要将相关内容紧密地链接在一起。为了研究主题团特性,我们设计了实验:首先将站点内的链接分为六类(下行链、上行链、水平链、交叉链、外向链、框架链) 、站点内的页面分为四类(主页、索引页面、内容页面、参考页面),并为每一类链接和页面赋予不同的权重,然后通过为每个页面分类,并在站点内部结构特征的基础上,对站点页面树按照自底向上进行主题聚类9。试验结果证明了站点中存在着许多主题页面团。2.3.4 Tunnel 特性在 Web 中
14、还有一类现象,就是主题页面团之间往往需要经过较多的无关链接才能相互到达。这些无关链接就像一个长长的隧道,连接着两个主题团,因此我们把这种现象称为“隧道现象”(Tunnel)。在基于主题的页面采集过程中,Tunnel 的存在极大地影响着采集的质量。为了提高采集页面的准确率,我们需要提高过滤相关性判定阈值,而阈值的提高将过滤掉大量的 Tunnel,使得采集系统很可能丢失Tunnel 另一端的主题团,进而影响了查全率( 或者说资源发现率) 。反过来,为了提高查全率,就得大量发现 Tunnel,降低 过滤相关性判定阈值,但是阈值的降低使得混进了大量的无关页面,从而大大降低了页面的准确率。这是一个两难问
15、题,但关键还是不能有效地区别 Tunnel 和其它大量无关页面。事实上,两个主题团之间的隧道数也较少。2.3.5 四个特性的关系Web 中的页面对于主题来说是杂乱的,但也存在一些规律。 Hub 特性说明了主题容易成团出现的现象,Linkage/Sibling Locality 特性进一步对成团的特性有所扩展,站点主题特性说明了主题团所在的位置( 即大部分分布于站点的内部) ,而 Tunnel 特征说明了主题团在 Web 上的分布并不稠密。3. 基于主题的 Web 信息采集系统模型3.1 系统模型我们在国内外已有主题采集系统的基础上,设计了“天达”主题采集系统,其系统模型如图 1 所示。为实现对
16、基于主题的信息自动采集,我们将整个处理过程分成七大模块:主题选择、初始 URL 选择、Spider 采集、页面分析、URL 与主题的相关性判定( 链接过滤/链接预测)、页面与主题的相关性判定(页面过滤) 、数据存储。3.2 主题的选择为了有效地进行采集,主题信息采集系统所要解决的一个重要问题就是主题选择。针对随便的主题词可能较大地影响采集效果,系统一般提供给用户一个主题分类目录以供选择。为了有效地确定用户选定主题的含义,用户要提供对主题的进一步描述,比如提供若干表达主题含义的文本,当然系统也会提供一些主题文本供用户选择。我们的系统就是按照中国图书馆的分类方法的第一级目录和二级目录对主题进行分类
17、的,并在每个主题下配备了一些主题文本,以供用户选择。3.3 采集起点的选择一般采集器是从一个种子 URL 集出发,通过 Web 协议向 Web 上所需的页面扩展的。基于主题的Web 信息采集也不例外,也有一个起始采集的种子 URL 集。但是,它的采集起点选择却必须十分慎重,因为这将影响着采集的效率,尤其是刚开始采集的准确率。根据主题在 Web 上的 Linkage/Sibling Locality 特性,一般采集系统需要选择质量较高的主题 URL作为初始种子 URL 集。为此,我们采用我们的小金手元搜索引擎为每个主题搜索页面,搜索排名前 50的 URL 作为每个主题目录下的种子 URL。用户在
18、设置主题采集时可以在这 50 个 URL 中进行选择,也可以将自己知道的好的主题 URL 输入进来,以提高采集的效果。Web 页 面 链 接 Spider采 集 页 面 分 析 页 面 内 容 Web页 面 过 滤 后 的 页 面 链 接 过 滤 后 的 页 面 内 容 页 面 过 滤 链 接 过 滤 主 题 页 面 库 URL队 列 中 间 信 息 纪 录 库 主 题 和 初 始 url选 择 图 13.4 Spider 采集这个部分处于系统的底层,也叫“网络蜘蛛” ,是系统专门与具体的 Web 打交道的部分。主要通过各种 Web 协议来自动采集 Internet 上 WWW 站点内有效的信
19、息(包括文本、超链接文本、图象、声音等各类文档) 。目前系统实现的主要是针对 HTTP 协议的。这一部分的主要任务是将全局 URL 队列中的 URL 分配给各个 Spider 采集器,Spider 采集器的个数根据系统的需要动态分配。抓取页面的算法如下:1) 分析页面 URL,抽出目标站点地址和端口号,若无端口号设为 HTTP 默认端口 80。判断该站点的连接方式设置,若设为直接连接则与该地址和端口建立网络连接;若设为穿越 Proxy 连接则与指定的 Proxy 地址和端口建立网络连接。2) 若建立网络连接失败,说明该站点不可达,中止抓取该页面并将其抛弃;否则继续下一步骤获取指定页面。3) 由
20、页面 URL 组装 HTTP 请求头,若该站点需要用户标识和口令则将其填入请求头中,发送请求到目标站点。若超过一定时间未收到应答消息则中止抓取该页面并将其抛弃;否则继续下一步骤分析应答消息。4) 分析应答头,判断返回的状态码: 若状态码为 2xx,返回正确页面,进入步骤 5); 若状态码为 301 或 302,表示页面被重定向,从应答头中提取出新的目标 URL,转入步骤 3); 若状态码为其它,说明页面连接失败,中止抓取该页面并将其抛弃。5) 从应答头中提取出日期、长度、页面类型等页面信息。若设置了页面抓取限制,进行必要的判断和过滤,抛弃不符合要求的页面。6) 读取页面的内容。对于长度较大的页
21、面,采用分块读取再拼接的方法保证页面内容的完整。至此该页面的抓取完成。3.5 页面分析在页面采集到以后,我们要从中提取出链接、元数据、正文、标题、摘要来,以便进行后续的过滤和其它处理。我们在这里主要介绍链接和标题的提取。3.5.1 链接的提取对抓取到的页面需要分析其中的链接,并对链接中的 URL 进行必要的转换。首先判别页面类型,显然只有类型为“text/html”的页面才有必要分析链接。页面的类型可由应答头分析得出,有些 WWW站点返回的应答信息格式不完整,此时须通过分析页面 URL 中的文件扩展名来判别页面类型。遇到带有链接的标记如、等,就从标记结构的属性中找出目标 URL,并从成对的该标
22、记之间抽取出正文作为该链接的说明文字(扩展元数据)。这两个数据就代表了该链接。对一个页面中的链接提取工作流程如下:1) 从页面文件队列中取出一个页面文件,如果应答头中未说明文件类型,根据 URL 中的文件扩展名补充完整。如果页面文件队列为空,跳转到 7)。2) 判断页面是否为 text/html/htm/shtml 文件,如果不是,抛弃此文件,转入 1),否则转入 3)。3) 从文件头按顺序读取文件,遇到如下标记 等,记录其中的 URL 连接。如果遇到文件结束符,则跳转到 7)4) 将提取出来的 URL 链接按照预先定义的统一的格式补充完整。(页面链接中给出的 URL 可以是多种格式的,可能是
23、完整的、包括协议、站点和路径的,也可能是省略了部分内容的,或者是一个相对路径)5) 记录下 等后面对此链接的说明信息。在 URL 与主题的相关性判定那一章中,我们要用到此信息,并把它定义为扩展元数据。6) 存储此 URL 及其扩展元数据,跳转到 2)。7) 页面 URL 提取完毕。3.5.2 标题的提取如图 2 所示,页面中标题的提取分为三步:1).判断正文开始的位置,从文章开头开始,逐段扫描,直到某一段长度不小于设定的正文最小长度,就假定这段为正文中的一段。2). 由正文位置向前搜索可能是标题的一段,根据字体大小、是否居中、颜色变化等特征找出最符合的一段文字作为标题。3). 由所给参数调整标
24、题所在的段,使标题提取更准确。句法、语义、统计分析标题段 stTitlePara 的前后几段,以准确确定标题段的真实位置;向前或向后调整几段,追加前一段或后一段。图 23.6 URL 与主题的相关性判定为了有效地提高基于主题的 Web 信息采集的可靠性(查全率和查准率的综合)和效率,系统需要在采集过程中增加过滤机制,以使得采集的页面能够向主题靠拢。过滤方法主要有四种:根据元数据的过滤、根据扩展元数据的过滤、根据链接分析的过滤、根据页面内容语义的过滤。元数据方法需要人们在设计页面时增加许多原来不需要的 Meta 信息,而这一点对设计者要求过高,因此目前此方法并不实用。根据页面语义的过滤,需要对整
25、个文本进行相关度计算,速度较慢,不能符合人们实时性的要求,扩展元数据方法主要是利用链接周围的 Meta 信息来预测所链到的页面主题,尽管可靠性不如根据页面语义方法高,但有较好的实时性。因此,我们的系统采用了综合扩展元数据方法和链接分析方法的 IPagerank 方法 。也就是说,我们的方法是进行 URL 与主题的相关性判定。按照高预测值优先采集、低预测值( 小于设定阈值)被抛弃的原则进行剪枝处理。这样可以大大减少采集页面的数量,有效地提高主题信息搜索的速度和效率。3.6.1 扩展元数据的含义:尽管目前元数据演算(在 HTML 中增加的一类标记,记作 )并不理想,人们却发现利用其它 HTML 标
26、记 anchor 等信息能够有效的指导检索和基于主题的信息采集。为了与元数据相区别,我们把这些标记信息统称为 HTML 扩展元数据,相应的计算叫做扩展元数据演算。3.6.2 扩展元数据方法:相关性权重算法(Relevance Weighting or RW)公式 1 否 则如 果0)(max)()max()( cturlMturlRW其中,M(url)指与此 URL 相关的所有扩展元数据集合, 是指扩展元数据中的一个词与主题的相关)(t度。c 为用户设定的相关性阈值。一般的扩展元数据方法是看扩展元数据中是否包含主题词或者主题词的同义词,这样会漏掉许多相关页面;而 RW 方法则是看扩展元数据中词
27、与主题词之间的相似度,同义词之间的相似度 100%,近义词之间的相似度 50%100%,远义词之间的相似度 0%50%,这样大大降低了漏判相关页面的可能性,同时也增加了错判相关页面(不相关的页面判断为相关页面) 的可能性,它的相关与否是通过阈值来决定的(大于等于阈值为相关,小于阈值为不相关) 。3.6.3 链接分析方法:PageRank 算法PageRank 是著名搜索引擎 Google 的一个重要检索算法,它有效的帮助搜索引擎识别那些重要的页面并且将它们排在检索结果的前列。Google 是美国斯坦福大学计算机科学系研究开发的一个大型搜索引擎。它的设计目标是提供千万页面级的搜索引擎,每天可以应
28、付数以百万计的查询请求,并且,最重要的是提供了相对令人满意的检索结果。此方法的公式是这样定义的:给定一个网页 A,假设指向它的网页有 T1,T2,Tn。令 C(A)为从 A 出发指向其它网页的链接数目, PR(A)为 A 的 PageRank,d 为衰减因子(通常设成 0.85),则有公式 2)()()()1() 21 nTCPRTCPRdPR3.6.4 IPageRank 算法通过观察我们发现:尽管 PageRank 方法对发现重要页面有很强的能力,但是它发现的重要页面是针对广泛主题的,而不是基于一个具体的主题。因此,一个被大量无关于主题的页面群指向的页面的PageRank 值就比一个由少量
29、相关于主题的页面群指向的页面的 PageRank 值高,这个现象对基于主题的采集来说是不合理的。但是,对于一个被大量相关于主题的页面群指向的页面的 PageRank 值高于一个由少量相关于主题的页面群指向的页面的 PageRank 值这个现象来说,我们却要加以利用。为此,我们对 PageRank 方法进行了改进:在链接关系的基础上,加入一定的语义信息权重,以使得所产生的重要页面是针对某一个主题的,这就形成了 IPageRank 算法。 IPageRank 算法既利用了 PageRank 发现重要页面的优势,又利用 RW 算法提高链接的相关性。改进公式如下:公式 3kniRWTnkiRWTkiR
30、TWurlIPurlTIPrluIdAI 121211)()()()( )()()1()其中,A 为给定的一个网页,假设指向它的网页有 T1,T2 ,Tn。url T1,url T2,url Tn 分别是网页 T1,T2,Tn 指向 A 的链接, k1,k2, kn 分别是网页 T1,T2,Tn 中所含的链接数。IPR(A)为 A 的 IPageRank 值,d 为衰减因子(也设成 0.85)。IPageRank 的实际意义可以用主题浏览者来解释。假设 Web 上有一个主题浏览者,IPageRank(即函数 IPR(A)是它访问到页面 A 的概率。它从初始页面集出发,按照页面链接前进,从不执行
31、“back”操作。在每一个页面,浏览者对此页面中的每个链接感兴趣的概率是和此链接与主题的相关性成比例的。当然浏览者也有可能不再对本页面的链接感兴趣,从而随机选择一个新的页面开始新的浏览。这个离开的可能性设为 d。从直观上看,如果有很多页面指向一个页面,那么这个页面的 PageRank 就会比较高,但 IPageRank 值不一定很高,除非这很多的页面中大部分都为与主题相关的页面;如果有IPageRank 很高的页面指向它,这个页面的 IPageRank 也会很高。3.7 页面与主题的相关性判定为了进一步提高采集页面的准确率,需要对已采集的页面进行主题相关性评价,也就是页面过滤。通过对评价结果较
32、低的页面( 小于设定的阈值) 剔除,来提高所采集主题页面的准确率。我们采取的方法就是基于关键词的向量空间模型算法。算法如下:0).预处理:在采集之前,我们先将描述主题的多个页面进行关键词的提取和加权,学习到属于该主题的特征向量及向量的权重。1).我们对页面的正文进行分词,除去停用词,留下关键词。并按照关键词在文章中出现的频率,对关键词加权。2).将此页面的标题分词,并将得到的关键词与文章中的关键词合并,并加重权于这个关键词上。3).根据主题中的特征向量对页面中的关键词进行修剪和扩充。4).根据公式 9.3 计算出页面与主题的相似度其中 D1 为主题, D2 为待比较的页面。公式 4Nkkkkw
33、DSim1212121 )()(*cos),(5).根据 Sim(D1,D2)值的大小和阈值 d 进行比较,如果 Sim(D1,D2)大于等于 d,则页面与主题相关,保留到主题页面库中;否则不相关,删除此页。3.8 数据存储主要有三种数据库需要存储,它们是主题页面库、全局 URL 队列和中间信息记录库。主题页面库主要存放采集器采集的并经过页面过滤处理后的主题页面。全局 URL 队列则是存放从采集到的页面中提取出来的 URL 的地方,这些 URL 在进入 URL 队列前必须经过 URL 预测处理,只有被预测为指向主题相关页面的链接才能进入全局 URL 队列。在插入队列时,也要根据 URL 与主题
34、的预测相关性的大小排序,相关性越高,排序越前。为了有效的进行 URL 与主题的性关性判定和页面与主题的相关性判定流程,显然需要许多中间处理结果,比如使用 IPageRank 算法时每个页面所拥有的 IPageRank 值,所有的这些中间数据,保存在中间信息记录库中。4 系统的实现4.1 系统基本情况“天达”主题 Web 信息采集系统是在中科院计算所领域前沿青年基金课题 “构筑个性化信息空间的基础模型研究”的资助下设计的。我们对预测算法和系统的基本性能进行了测试,取得了令人满意的结果。系统是在原有基于站点采集的“天罗”采集系统的基础上改进实现的。 “天罗”信息采集系统是一个采集性能较高的实用系统
35、,它是我们 Internet/Intranet 智能导航平台、搜索引擎、采集转播、内容安全、报警平台、主机攻击等项目的核心和基础,也是一个能力强大的采集系统,能够采集包括Web 网页、FTP 文件、Web 聊天、Web BBS 、以及 Telnet BBS 等多种信息。4.2 系统测试结果4.2.1 测试集的选择我们选择了旅游信息作为主题进行测试,收集了旅游主题网站 20 个,并加入了 60 个无关网站组成测试集,其中共含超过 20000 个页面。4.2.2 算法测试我们用相同的初始 URL 集合,分别用广度优先算法、PageRank 算法、IPageRank 算法、对数据进行采集。为了有效地
36、得到各个方法的准确效果,我们在实验中暂停了页面与主题相关性判定模块。在实验中,我们分别记录下采集页面数为 500,1000,1500,4000 时的页面数量及状态,并及时的计算出采集准确率和资源发现率。图 34.2.3 性能测试我们的测试平台为一台 CPU 为 Intel PIII 800、内存为 128 兆、操作系统为 Window2000 Professional的计算机,在采集时候,系统的采集端设置了 10 个线程,采用的 URL 预测算法为 IPageRank。所测试的性能指标包括最终采集页面的准确率、采集页面的资源发现率、内存的占用大小,测试结果如图 4所示。图 45.结束语随着人们
37、对 Web 服务种类和质量要求的提高,我们展开了基于主题的 Web 信息采集技术的研究,并设计了一个实际系统。在原有技术的基础上,我们又设计出许多独具特色的新算法,比如 Spider 采集、标题提取、URL 主题预测以及页面与主题相关性的判定,特别地,我们对著名的 Google 算法进行了改进,以使得它即适合基于主题的采集,又保持了原来的优势。实验表明基于主题的采集优势是明显的。随着 Web 服务朝个性化方向的迈进、Agent 技术的发展、迁移式思想的出现,单纯的为了检索的 Web 信息采集技术必将向着基于主题以及个性化主动信息采集服务方向全方位拓展。参考文献1Aggarwal et al.
38、2001 C. Aggarwal, F. Al-Garawi and P. Yu. “Intelligent Crawling on the World Wide Web with Arbitrary Predicates“. In Proceedings of the 10th International WWW Conference, Hong Kong, May 2001.2Brin & Page 1998 S. Brin and L. Page. “The Anatomy of a Large-Scale Hypertextual Web Search Engine“. In Proc
39、eedings of the Seventh International World Wide Web Conference, Brisbane, Australia, April 1998. 3M.Diligenti et al. 2000 M. Diligenti, F. M. Coetzee, S. Lawrence, C. L. Giles and M. Gori Focused Crawling Using Context Graphs. VLDB Conference. 20004Menczer et al. 2001 F. Menczer, G. Pant. P. Sriniva
40、san and M. Ruiz.“Evaluating Topic-Driven Web Crawlers“, In Proceedings of the 24th Annual International ACM/SIGIR Conference, New Orleans, USA, 2001.5Selberg&Etzioni 1995 Erik Selberg and Oren Etzioni. “Multi-Service Search and Comparison Using the MetaCrawler”. In Proc. 4th World Wide Web Conferenc
41、e, Boston, MA USA, December 19956SMB 1999 Soumen Chakrabarti,Martin van den Berg,Byron Dom,”Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery”. Proceedings of the 8th World-Wide Web Conference,1999,Canada.7李盛韬 2002 李盛韬. Web 信息采集研究进展 计算机科学,2002.8徐泽平 2001 徐泽平. “数据挖掘在 Internet 信息检索中的应用”硕士论文D.北京:中科院计算所 20019余智华 1999 余智华. “WWW 站点的分析与分类” 硕士论文D.北京:中科院计算所 1999作者简介:李盛韬(1976-) ,男,甘肃兰州人,硕士研究生,主要研究方向:智能 Agent,信息采集,信息检索,文本分类;赵章界(1976-) ,男,安徽人,博士研究生,主要研究方向:信息检索,数据挖掘余智华(1974-) ,男,湖北人,博士研究生,项目主管,主要研究方向:信息检索与分类,个性化推送模型;