1、 深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究【中文摘要】随着网络技术和数据库技术的飞速发展,互联网已成为海量信息的载体,如何从海量信息中准确、快速地抽取出有价值的信息已成为人们迫切需要解决的一大难题。电子商务网站具有动态 Web 页面、页面结构化程度高以及信息数量巨大且内容丰富等特点。实际上,电子商务网站属于 Deep Web,Deep Web 指的是存储在数据库中、不能通过静态超链接访问而需要通过动态网页技术访问的信息,用户需要向特定的查询接口提交查询请求后才能访问数据库中的数据。深度搜索就是针对 Deep Web 进行搜索。Deep Web 不仅信息量大,而且具有面向某一领域、
2、结构化程度较高且可以公开访问等特点。本文选择电子商务网站作为深度搜索的对象,研究商品信息的抽取。电子商务网站的站内搜索引擎为研究人员对网站进行深度搜索提供了便利,它可以根据用户输入的关键词,将与之相关的数据库内容以网页的形式动态呈现出来。我们可以利用这类查询接口进行深度搜索,通过模拟关键词的填充和提交,来获取我们需要的页面。通过深度搜索所获得的页面内含有大量商品信息,我们以此为信息源进行信息抽取。信息抽取研究中最关键的技术在于如何生成抽取规则,生成的方法有很多,但从生成的手段来说可以分为两种,一种是自动生成抽取规则,另一种是人工编写抽取规则,两种方法各有优缺点,有着各自的适用范围。自动生成的方
3、法有利于针对不同结构的网站,但准确率较低;而人工编写的方法虽然需要人工参与,但抽取结果较为精确。本文针对电子商务网站进行信息抽取,抽取商品的各种信息,主要包括商品名称、价格、运费、商品相关信息等内容。由于同一网站下的子页面结构大体相同,因此,为了获得更为精确的抽取结果,我们采用了人工编写抽取规则的方法。本文的主要内容及创新点如下:1、设计一个关键词库接口,使得系统可以接受关键词库文件(文本文件,关键词之间以回车符隔开),将关键词库文件内的关键词一一导入至系统中,用于表单的自动填充和提交。另外,考虑到了效率问题,让系统在导入新关键词库文件时与旧关键词库进行对比,判断出新关键词,最后只接受更新的那
4、一部分关键词,即达到关键词增量更新的。2、提取电子商务网站的 HTML 源码,通过对 HTML 源码进行分析,提取出网站中包含查询表单的那部分 HTML 源码。根据这部分 HTML 源码,利用 WebBrowser 控件方法对这些查询表单自动模拟关键词的填充和提交,用以获得每一个关键词所对应的初始页面。3、选择性的提取链接,只提取初始页面中的商品信息链接,而不提取广告和友情链接。另外,由于商品信息链接有多页,因此还需要通过获取“下一页”链接来得到更全的商品信息链接。本文介绍了多种获取“下一页”链接的方法,并提出了一个通用性较好的方法。4、通过正则表达式来定义抽取规则,根据不同的页面结构编写相应
5、的正则表达式,从而进行信息抽取。抽取的结果以文本文件的格式保存,便于对关键词库文件进行更新。【英文摘要】With the rapid development of network and database technology, Internet has become a carrier of a great deal of information, how to extract the meaningful information accurately and rapidly from the mass of web information has become an urgent prob
6、lem which people want to solve. There is a lot of web information in the E-commerce websites, these websitesweb pages are dynamic, and have high degree of structures. Actually, the E-commerce websites belongs to Deep Web, Deep Web is the information which can not access with hyperlinks and needs the
7、 dynamic web technology to access, users need to submit queries on the specific interface(the query interface) to access the data in the database. Deep search is the kind of search which aim at Deep Web. Deep Web has lots of information, high degree of structures and public access interface. So we c
8、hoose the E-commerce websites to do the object of research of deep search, and get the purpose that extract the productsinformation. The search engines of E-commerce websites offer convenient for researchers to extracting information. Depending on some keywords that users input, these query interfac
9、es can show users the information about keywords by web database dynamically. We can use these query interfaces to do some research into deep search, getting the web pages what we need by simulating the filling and submission of keywords.The webpages what get by deep search have a lot of productsinf
10、ormation, we use these information source to extraction. The key point of web information extraction is how to generate extraction rules. There are two approaches to generating extraction rules, one is generating automatically, and another one is generating by manual work, these two approaches are a
11、ll have advantages and shortcomings, they have their respective applicable scopes. The automatic approach is suitable for websites which have different structrue, but the precision rate of this approach is lower. Although the manual approach needs someone to write the regule rules, the precision rat
12、e of extraction results is higer. Due to the web pagesstructures of E-commerce websites are mainly the same, and we want to extract the information includes: productsname, productsprice, freight and other information about products, we choose the manual method what has more precise extraction result
13、s.The main works and innovations of this paper are as follows: 1、Design an interface of keywordsfiles, allowing the system to accept to the keywordsfiles(text files, there is a carriage return between two keywords), and putting these keywords in our system for filling and submitting query forms. Mor
14、eover, we consider the question of incremental keywords, the system of this paper do not accept the keywords what in the old keywordslibrary.2、Extracting the HTML codes of E-commerce websites. Extracting the part of query formsHTML codes of E-commerce websites by analyzing the HTML codes of E-commer
15、ce websites. According to these HTML codes, using WebBrowser Control to simulate the filling and submission of keywords, and getting the initial pages about keywords.3、Extracting the hyperlinks with selectivity, only extract the hyperlinks of productsinformation, but not the hyperlinks of advertisem
16、ent and any other unrelated hyperlinks. Moreover, we need get more comprehensive hyperlinks of productsinformation by getting the hyperlinks of“next-page”, because of the multi-page hyperlinks of productsinformation. In this paper, we introduce some approaches of getting the hyperlinks of“next-page”
17、, and propose an approach that has good applicability.4、According to the structures of different websites, generating the extraction rules by regular expression, thus information extraction. The extraction results are saved as text files which is convenient for updating keywordsfiles.【关键词】深度搜索 Deep
18、Web Web 信息抽取 URL 提取 正则表达式【英文关键词】Deep Search Deep Web Web Information Extraction URL Collection Regular expression【目录】面向电子商务网站的深度搜索与信息抽取研究 摘要 3-5 Abstract 5-6 第 1 章 绪论 9-12 1.1 课题的研究背景及意义 9-10 1.2 本文主要内容 10-11 1.3 论文组织结构 11-12 第 2 章 深度搜索相关研究综述 12-19 2.1 搜索引擎研究综述 12-15 2.1.1 搜索引擎的概念 12 2.1.2 搜索引擎的工作原理
19、 12-13 2.1.3 搜索引擎的分类 13-15 2.2 深度搜索研究综述 15-18 2.2.1 Deep Web 概述 15-16 2.2.2 深度搜索的方法 16-17 2.2.3 深度搜索的工作原理 17-18 2.3本章小结 18-19 第 3 章 Web 信息抽取研究综述 19-29 3.1 Web 信息抽取的概念 19 3.2 Web 信息抽取研究发展现状 19-20 3.3 Web 信息抽取的方法 20-23 3.3.1 Web 信息源 20-21 3.3.2 结构化数据提取 21 3.3.3 半结构化数据提取 21-23 3.3.4 非结构化数据提取 23 3.4 Web
20、 信息抽取存在的问题 23-24 3.5 Web 信息抽取工具 MetaSeeker 24-27 3.5.1 MetaSeeker 简介 24-25 3.5.2 MetaSeeker 的应用 25-26 3.5.3 MetaSeeker 的优势与局限性 26-27 3.6 本章小结 27-29 第 4 章 深度搜索与信息抽取系统 29-53 4.1 设计目标与思路 29-31 4.1.1 系统的目标 29-30 4.1.2 设计的基本思路 30-31 4.2 系统的整体框架 31-33 4.3 关键词库接口设计 33-36 4.3.1 关键词库接口 33-34 4.3.2 关键词库接口的增量更
21、新设计 34-36 4.4 查询表单的处理 36-40 4.4.1 识别查询表单 36-38 4.4.2 表单的自动填充与提交 38-40 4.5 URL 提取 40-45 4.5.1 起始页面中链接的提取 40-42 4.5.2 “下一页”链接的获取策略 42-44 4.5.3 URL 的整理 44-45 4.6 信息抽取 45-52 4.6.1获取网页源码 45-46 4.6.2 利用正则表达式编写抽取规则 46-50 4.6.3 保存抽取结果 50-52 4.7 本章小结 52-53 第 5 章 深度搜索与信息抽取系统评测 53-57 5.1 实验评测标准 53-54 5.2 实验结果分析 54-56 5.3 本章小结 56-57 第 6 章 总结与展望 57-59 参考文献 59-62 致谢 62-63 在读期间公开发表论文(著)及科研情况 63