收藏 分享(赏)

Web中图像的检索技术研究.doc

上传人:wo7103235 文档编号:6273344 上传时间:2019-04-03 格式:DOC 页数:14 大小:208.50KB
下载 相关 举报
Web中图像的检索技术研究.doc_第1页
第1页 / 共14页
Web中图像的检索技术研究.doc_第2页
第2页 / 共14页
Web中图像的检索技术研究.doc_第3页
第3页 / 共14页
Web中图像的检索技术研究.doc_第4页
第4页 / 共14页
Web中图像的检索技术研究.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、1摘 要在网络和多媒体技术越来越发达的今天,信息检索技术成了现在计算机领域的重要内容,而图像检索技术又正是这其中的重要内容之一。而网络资源的极大丰富以及图像检索技术不断发展成熟,使得图像检索技术的应用领域不断扩大,这为图像检索技术的继续研究提供条件。人们为了对图像进行更好的使用和组织管理,便开发出了多种多样图像检索技术,本文首先要将各种图像检索技术的工作原理、研究现状、相关图像搜索引擎与发展趋势作一个介绍。随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。在实现对网页中文本信息提取的同时,如何再为用户抽取所

2、需的图片资料,是信息检索中一个重要的方面。于是各种基于 Web 的图像检索系统应运而生。它们采用不同的工作方式,极大地方便了用户对网上图像进行检索。目前图像检索技术的发展正走向更加成熟和完善,其中 Web 图像搜索技术也更加完善,本文将介绍这种图像检索技术并阐述 Web 页中的图像与文本之间的关系,对相似度作出了详细的论述。关键字: 搜索引擎 图象检索 文本处理 信息检索 相似度 相关性反馈2Study of Web Images Retrieval TechniqueAbstractToday, the network and multimedia technology are more a

3、nd more developed, retrieval technique of information has become the important content of the computer field now, and picture retrieval technique is exactly one of the important contents among them. And network resources are enriched greatly and picture retrieval technique is developing ripe constan

4、tly, make picture application of retrieval technique expand constantly, this offer terms for picture continuation research of retrieval technique.People develop varied picture retrieval technique in order to carry on better use and organizational management to the picture , this text should first ac

5、t as an introduction various kinds of picture operation principle , research current situation , relevant picture search engine and development trend of retrieval technique.With the improvement of the transfer rate of the network and information processing speeds of the computer, it is popularized v

6、ery much that the webpage hits the use for information of the multimedia, especially the information of the picture , it shows the component with indispensable content of the webpage that own but become. While realizing drawing the Chinese version information of the webpage, how to collect the neces

7、sary picture materials for users again, it is an important respect in information retrieval. Then various kinds of picture retrieval systems based on Web arise at the historic moment. They adopt different working way, help user search to the picture online greatly.The development of retrieval techni

8、que of the picture is moving towards riper and more perfect at present, Web picture too perfect to search for technology among them, this text recommend the picture retrieval technique and explain Web picture and relation of text of page, make detailed argumentation to similar degree ,etc. , search

9、for through experiment model conclusion indicate the high efficiency that the picture searches for.Keywords: Search engine Image Retrieval Text-processing Information retrieval Similar degree Dependence feedback3第一章 前言1.1 引言随着多媒体技术及 Internet 网络的迅速发展,图像来源不断扩大,大容量高速存储系统为图像的海量存储提供了基本保障,各行各业对图像的使用越来越多,图

10、像信息资源的管理和检索也就显得越来越重要。但由于 Internet 本身结构上、管理上的问题,想要在Internet 准确、快速、全面地找到自己所想要的图像,却变成了件非常不容易的事。由于 Internet 现有的问题:内容没有结构;网上信息量庞大且还在不断的增加。因此,网络产生了搜索引擎。虽然这些给网络用户提供了不少的帮助,但由于但离准确、快速、全面地搜索自己所要的图像还相当遥远,所以对图像检索还要作很大的研究。根据国内外现有的搜索引擎和国际上的有关研究小组的种种资料表明,现有的网络资源和搜索引擎有如下特点:(1)索引的数据种类丰富,如文字、图像、声音等多媒体。数据的存取协议也是多种多样的,

11、如 HTTP、FTP、News、Gopher 等;(2)索引数据量大,以致不可能有某个数据库能包括整个 Internet 的索引,目前最大的搜索引擎,其中的索引也只不过覆盖了 Internet 的一小部分;(3)资源消耗太大,系统需要将 HTML 文件传送至本地然后分析,大量占用昂贵的网络带宽和 CPU 资源,增加被搜索结点的负担。另外由于现有的搜索引擎一般是集中式的,所以搜索引擎服务器本身的硬件配置也极高,才能处理庞大的数据量和及时地响应用户的查询请求;(4)不能有效解决索引失效问题,很多时候,搜索引擎会返回无效的查询结果;(5)各检索工具各行其事,不能相互协作,在一定意义上讲是一种资源的浪

12、费。1.2 现有的图像检索技术近年来随着用户对网上图像搜索要求的不断增长,各种图像搜索引擎应运而生,它们各自以不同的工作方式为用户提供各种检索途径,使网上图像信息的搜索变得非常简单,尽管还不很完善,却已经可以满足用户的大多数要求。1.2.1 搜索引擎的工作原理最基本的搜索引擎的结构,是由 Spider 不停地从 Web 网上收集数据,存放在搜索引擎的数据库中。用户通过搜索引擎服务器上的 Web 接口,提出搜索请求, Web Server 通过CGI 或其它技术访问数据库,并将用户的搜索请求转换成相应的数据存取语句,送给数据库引擎处理,并把查询结果通过网页显示给用户。网络搜索的基本原理是通过网络

13、机器人定期在 web 网页上爬行,然后发现新的网页,把它们取回来放到本地的数据库中,用户的查询请求可以通过查询本地的数据库来得到。一般来说网络信息检索的实现机制一般有两种,一种是通过手工方式对网页进行索引,它的缺点是 Web 的覆盖率比较低,同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的。第二种是对网页进行自动的索引,这种能实现自动的文档分类,实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。在现在所有运行的搜索工具来说,一般都有一个 Robot 定期的访问一些站点,来检查这些站点的变化,同时查找新的站点。一般站点有

14、一个 robot.txt 文件用来说明服务器不希望 Robot 访问的区域, Robot 都必须遵守这个规定。如果是自动索引的话,Robot 在得到4页面以后,需要对该页面根据其内容进行索引,根据它的关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的,典型的元数据包括标题、IP 地址、一个该页面的简要的介绍,关键字或者是索引短语、文件的大小和最后的更新的日期。尽管元数据有一定的标准,但是很多站点都采用自己的模板。文档提取机制和索引策略对 Web 搜索引擎的有效性有很大的关系。高级的搜索选项一般包括:布尔方法或者是短语匹配和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的

15、等级提交给用户。最相关的放在最前面。每一个提取出来的文档的元数据被显示给用户。同时包括该文档所在的 URL 地址。另外有一些关于某一个主题的专门的引擎,它们只对某一个主题的内容进行搜索和处理,这样信息的取全率和精度相对就比较高。目前,图像搜索引擎主要通过以下两种方法识别图像: (1)自动查找图像文件。通过两个 HTML 标签,即 IMGSRC 和 HREF 来检测是否存在可显示的图像文件,IMGSRC 表示“显示下面的图像文件”,导向的是嵌入式图像;而HREF 则表示“下面是一个链接”,导向的是被链接的图像。搜索引擎通过检查文件扩展名来判断其导向的是否为图像文件,如果文件扩展名是.gif 或.

16、jpg,即是一个可显示的图像。 (2)人工干预找出图像。进行分类,由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系,但劳动强度太大,因此要限制处理图像的数量。由于图像不同于文本,需要人们按照各自的理解来说明其蕴含的意义,因此图像检索比文本的查询和匹配要困难得多。1.2.2 图像搜索引擎的检索途径1.关键词检索传统的图像检索技术是基于关键字的精确匹配检索,系统内的图像用关键字标识,检索线索是与标识相一致的关键字,即输入是关键字,输出是图像。它又包括两种途径:(1)基于图像外部信息进行检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索

17、,这是目前图像搜索引擎采用最多的方法。在找出图像文件后,图像搜索引擎通过查看文件名或路径名确定文件内容,也可以通过查看图像的标题来匹配检索词。(2)基于手工标注的检索。手工对图像的内容(如物体、背景、颜色等)进行描述并分类,将其标注为一系列关键字,并建立索引。检索时,将主要在这些描述词中搜索用户输入的关键字。这种查询方式是比较准确的,一般可以获得较好的查准率,但需人工参与,劳动强度大,因而限制了可处理的图像数量。另外,由于图像所包含的信息量庞大,不同用户对于同一张图像的看法又不尽相同,导致了对图像的标注缺乏统一标准。2. 图像可视属性的检索而基于图像内容的检索主要是由图像分析软件自动抽取图像的

18、颜色、形状、纹理等特征,建立特征索引库,其输入为用户要查找的图像的大致特征描述或示例,通过一定相似性匹配规则,输出为与之具有相近特征的图像,按相似程度排列,供用户选择,从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题,交由系统去解决。这是一种基于图像本身特征层次的检索,特别适用于检索目标明确的查询要求,但目前这种较成熟的检索技术主要应用于图像数据库的检索。在图像搜索引擎中应用这种检索技术还有一定困难,但己有部分图像搜索引擎尝试了这种检索方法。1.2.3 对几个基本引擎的分析(1)InfoSeek 是一个简单但是功能强大的索引,它的一个优点是有一个面向主题搜索的5可扩展

19、的分类。你可以把你的搜索短语和相似的分类目录的主题短语相互参照,而那些主题短语会自动加到你的查询中去。使你的搜索有更好的主题相关性。同时它也支持对图象的查询。它能够漫游 Web,Usenet,Usenet FAQs 等等。不支持布尔操作,但是可以使用符号“+“和“-“。 (2)AltaVista 是一个大容量的,基于 Robot 索引的 Search Engine。它能帮你在 WWW网上搜索你所需要的网页,新闻组,图像,视频音频片段。AltaVista 还支持多种语言和简单的自然语言查询。AltaVista 覆盖面约为 WWW 网上可索引的网页的 30%(3)Scour 成立于 1998 年,

20、自称是第一个基于 web 的多媒体搜索引擎。虽严格讲,它并非是一个图像搜索引擎,但可以将检索限制在图像搜索上。它的工作原理是在文件名、路径名或 ALT 标签中搜索检索词。主要使用关键词检索,可以用“ “ 或“ 来增加或排除关键词,使用尽可能少的关键词会更有效。在高级检索中,可以将检索结果图像限制在 GIF、BMP、JPEG 等格式中。检索结果显示简图、图像类型(如 GIF、BMP) 、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等,并同时给出图像文件的 URL 和源站点的 URL。主要缺陷是标引深度不足,查准率较低,但查全率较好。(4) 这是由 NCRTE

21、C 组织开发的一个“真正人工建立的完全的关键词式索引“。 Amazing Picture Machine 后面的教师负责选择图像丰富的站点,然后对每幅选定的图像内容进行描述,给出关键词。因此它的最大特点就是人工干预,关键词检索是主要的检索手段。Amazing Picture Machine 的搜索结果将显示一个简短的标题、有关图像的说明(如彩色或黑白) 、文件的大小、文件类型及象素多少等,但不显示简图。单击该标题可得到原图像,但需由该 URL 回溯才能找出源站点。由于人工干预检索过程,它的查准率极好,但这也限制了它的查全率。它的检索范围很有限,只包括 web 上人工选择的部分站点。(5)Lyc

22、os 对所收录的图像进行了详尽的内容描述,并支持短语检索,从而使其查准率大大提高。它根据文件扩展名识别图像,在描述词、文件名、目录名或 ALT 字段中查询检索词。结果显示的信息极为丰富,包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所在页面等。点击简图将得到原图及更多的信息,如著作权人和更多的相关图像。比较而言它的检索效果很好,速度也很快。1.2.4 搜索引擎的基本要点(1)索引文档的容量:现在最大的搜索引擎可能包含了超过 100,000,000 个链接,但这也只是整个 Web 网上的一小部分。因为收集资料的 Robot,只能从“已知”的链接开始收集网页资料,而只有一小部分

23、 Web 网页和这些“已知” 的网页有连接;现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引;(2)覆盖面:地理覆盖面和主题覆盖面;(3)索引更新频率:不同的搜索引擎,索引更新频率相差很大,有的是几周,有的是一年。索引更新频率有两种定义,一种比较少用的定义是新的网页能被收录进索引数据库中,另一种是同一页多少时间才被检查一次,有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作;(4)采集过程:采集过程有宽度优先、深度优先两种算法;一般认为宽度优先对扩大内容的覆盖面有利,深度优先算法有助于提供更多的细节资料;(5)索引算法:有的搜索引擎只处理元标记

24、和一小部分文档内容,而有一些搜索引擎则是对全文进行索引;6(6)结果显示:有的搜索引擎只显示网页的标题,有些则有更详细的一些信息,比如网页的内容,更新日期等;(7)查询算法:一个优秀的查询算法是很重要的,最基本的布尔查询,短语查询,有的搜索引擎还提供指定属性的查询,比如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法;(8)用户界面:很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例。1.3 图像检索的发展方向图像检索技术给用户提供了一个在互联网上搜索感兴趣图像资源的有效手段,基于文本和基于内容是图像检索发展的两个分支,不过从目前图

25、像检索研究的趋势而言,尤其结合网络环境下图像的特征嵌入在具有文本内容的 Web 文档中,出现了三个不同的研究着眼点。(1)基于文本的检索研究立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如 Page-Rank 方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。(2)基于内容的检索研究立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集

26、等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。(3)基于文本内容结合的检索研究结合文本和内容,二者虽侧重不同但却互相补充。如果能将二者结合起来取长补短,则网络的图像检索技术必有新的进展。已有的图像搜索引擎在信息的自动加工和标引方面都有待提高,需要开发出计算机自动识别和标引图像的算法和技术,以完善现有的检索功能,并与已有的成熟的图像库检索技术相结合,这是今后应该研究的一个课题。而且,图像库检索技术也应面向网络,利用网络技术进行改造,提供新的 WWW 访问界面

27、代替原来的应用系统界面。同时将巨大的图像库资源利用网络实现共享(4)对基于内容编码技术的研究可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。目前,国际上还没有通用的基于内容的编码标准。20 世纪 90 年代初,国际上就开始了对基于内容的图像信息检索方面的研究。从基本的颜色检索,到综合利用多种图像特征进行检索,大量原型系统已经推出,其中,部分已投入到实际应用中以检验其有效性。同时,MPEG-7 标准作为基于内容的多媒体编码标准也正在制定当中,即将成为国际标准中的一员。因此,应尽快对 MPEG-7 标准进行研究,分析其编码的实质,在此基础上进一步研究基于内

28、容检索的系统,使我国基于内容的图像检索尽快走向实际应用阶段。(5)对用户查询接口的研究 这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性,人在系统中是7主动的。除了提供示例和描绘查询基本接口之外,用户的查询接口应提供丰富的交互能力,使用户在主动的交互过程中表达对图像语义的感知,调整查询参数及其组合,最终获得满意的查询结果。用户的查询接口应该是直观易用的,底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量,如何从交互过程中获取用户的内容感知,以便选择合适的检索特征等问题

29、。一个优秀的搜索引擎必须处理以下几个问题:(1)网页的分类(2)自然语言的处理(3)搜索策略的调度和协作 (4)面向特定用户的搜索。因此,现在有很多的网络检索工具,也就是说搜索引擎采用了智能的检索手段来增强它的检索能力,而图片检索正是其中的一大块内容。随着网上多媒体的广泛应用,对图像的检索需求将会越来越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。随着多媒体信息处理技术的日益发展和深化,图像信息的加工、处理和检索标准的出台,网上的图像检索技术将会日趋完善,而图像搜索引擎也将成为 Internet 上的新宠。8第二章 基于 Web 的图像搜索在网络技术和计算机技术高速发展

30、、多媒体应用越来越普及的现在,图像检索和图像应用已成了如今网页中不可缺少的重要部分。在能够实现对网页中文本信息提取的同时,如何再为用户抽取所需的图片资料是信息检索中一个值得研究的问题。现有的检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。当然现在的人们也可以利用图像的内容特征去搜索所需的图片信息,但现在这项技术就是到现在也还不够成熟,其搜索效率还是不能令人满意。如今在 Web 中处理图像检索有很多成熟的技术,如基于 Web 的数据仓库、Web 数据挖掘、Web 数据源集成技术等。为此,必须为 Web 建立适

31、当的数据模型,利用数据模型有效地从 Web 中获取信息。为了处理 Web 的中文数据,还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名和机构名的自动识别、自动标引等,其他像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。实现上述技术需要扎实的积累和自然语言处理功底。而如何利用现有成熟的传统的图片检索手段,研究出快捷方便而且能迅速提高检索效率的方法,本文将依据现有的搜索引擎和检索手段的研究找到网页中文本与图像之间的内在特点和联系,改进原有的文本搜索使用的模式和方法,提出新的文本相似的匹配算法,并引入检索的反馈技术,把这些技

32、术引入到图像检索中,使得搜索手段更易于实现和提高检索效率。2.1 文本与图像之间的关系在文本检索中,搜索引擎主要考虑 Web 页中相关文字信息以及它的语义,这些文本信息反映出网页的内容,但不完全与网页中图片的内容一致。在 HTML 网页中,根据 HTML语言的格式,捕获反映图片信息的文字信息,分析这些文本的语义具有重要的意义。如在HTML 文档中标记以及其周围的文字信息,与网页中的插图的内容有着密切的联系。2.1.1 表示图像内容的文本标记为了能识别嵌入网页中图片的内容,必须仔细检索 HTML 文档中能反映出图像内容的标记与其中的文本。经过对 HTML 网页格式的分析与对大量实际网页的研究,可

33、知以下几个方面的标记与文本和图像内容有着最为密切的联系。(1)图像的说明,这些文本出现在图像的周围,用一句过多句话表示出图像的内容,当图像被置于表格中时,同一单元或相邻单元格内的文字也常用与表示图像的含义。(2)图像的标题,通常用一个关键词表示图像信息。(3)图像的标签,使用一段短语说明图片的摘要信息,图片无法显示时用标签的文本取代图片,显示摘要信息。(4)网页的标题,该标题反映出网页的中心内容,作为表现网页内容的图片与网页的标题之间也有着一定的联系。以上讨论的是 HTML 中文档和嵌入网页中图像文本信息的关系,当然还存在其他的文本与多媒体信息和图像有关。但是作为搜索引擎要考虑的方面,既要保证

34、抽取信息的准确9性,也要兼顾程序执行中时间、空间的复杂度。过多地引入与图像关系不是十分紧密的内容作为检索的依据,会引入检索时的躁声干扰,降低搜索效率。2.1.2 文本的权值比较以上讨论了网页中对图像信息的描述,在图像的检索中,首先是要建立描述图片内容特征的查询语句,然后比较、区分描述信息与查询语句之间的异同,获取需要检索的图像。但以上信息在对图像描述时侧重于不同角度,同时与图像信息的联系程度也不一样。图像标题和网页标题是简单的词条,两者中相对来说图像标题更接近图像的主题内容。图像的标签和图像的说明是文本信息对图像内容的描述,后者相对来说更为详细。所以在比较、区分各类文本信息以决定是否符合检索要

35、求时,它们所占的权值应该是有所不同的。根据信息的重要程度,他们所占的权值大小按次序如下:Image CaptionImage TitleImage AlternatePage Title2.2 图像信息检索Web 搜索引擎采用何种检索模型,它所提供检索质量将直接影响到检索的效果。现在使用较多的是布尔检索模型、概率检索模型、概率推理网络模型和向量空间模型。这里采用的是近年来使用较多且效果较好的一种信息检索模型:向量空间模型。2.2.1 检索模型与相似度在用向量空间模型进行检索的时候,首先把描述网页中的图片的文字信息看作是有序的词条序列,这样把以上归纳的信息分别称为:ICW,ITW ,IAW ,P

36、TW。在应用模型时,我首先要将这些信息向量化,把文档映射为一个特征向量 V(d)=(t1, 1(d);t n, n(d),其中 ti(i=1,2, ,n)为一列互不雷同的词条项, i(d)为 ti在 d 中的权值, 一般被定义为 ti在 d 中出现频率 tfi(d)的函数,即 )()(dtfdii在信息检索中常用的词条权值计算方法为 TF-IDF 函数 )log()(ii nNtf其中 N 为所有文档的数目,n i为含有词条 ti的文档数目。TF-IDF 公式有很多变种,下面是一个常用的 TF-IDF 公式: ni iiiii nNdtfd12)1.0(log)(.)(根据公式,文档集中包含某

37、一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档 di,d j的相似度可以表示为10nkjnkikjkiji ddSm1212)()(cos),( 进行查询的过程中,先将查询条件 Q 进行向量化,主要依据布尔模型:当 ti在查询条件 Q 中时,将对应的第 i 坐标置为 1,否则置为 0,即tqii0也就是说当两词条完全相同时, ,这一项为 1,其余情况为 0。可以看出文档含有完全相同的词条时,相似度=1;而其中无相同时的词条时

38、,相似度=0。从而文档 d 与查询 Q 的相似度为niiniii iiqddSim1212)(),(根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。2.2.2 分词技术和匹配方法1. 常用的切词算法如下:(1)最大正向匹配法基本思想是:设 D 为词典, MAX 表示

39、D 中的最大词长,str 为待切分的字串。它是每次从 str 中取长度为 MAX 的子串与 D 中的词进行匹配。若成功,则该子串为词,指针后移 MAX 个汉字后继续匹配,否则子串逐次减一进行匹配。(2)逆向最大匹配法 它的基本原理与前面的相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为 1/169,单纯使用逆向最大匹配的错误率为 1/245,它切分的准确率上比正向匹配法有很大提高。(3)基于词频的统计方法统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率

40、超过某个预先设定得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。2. 匹配方法:(1)词典存储格式:首先对存储形式进行建模,结构是 3 层树形结构,如下11A1321B(f,n1)1C(t,3)2AnDn4F1G2H1RT一层存储所有单字。第二层保存所有的双字词和多字词的前两个字(因为,也许会出现ABC 为词,但 AB 不是词的情况) ,并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层结点,用来存储所有以该字为词首的双字(包括上述两种情况) 。并且,在这里,针对每一个双字,需要记录以该双字为词首的所有词的最大长度,实际中,可以保存除去该双字部分的最大长度(

41、记为 n)。第三层存储以某一双字为首的所有词。为了减少存储空间,只存储除去该双字以外的部分(如上图所示) 。每一层各结点需按某种次序排列,可使用 hash、二分查找等方法进行查询。采用这种层次的存储结构,可以很快把查询词的工作缩小到一个很小的范围内,有利于分词效率的提高。(2)匹配方法由于词库中的最大词长通常大于所切分出的词长,为了提高切分的效率,不采用逐次减一个字的方法,而是使用正向逐一增长的方法。假设对一个句子 C1C2进行分词处理,算法描述如下:1) 两个字(开始时为 C1C2) ,在词典中查询 C1C2是否存在2) 不存在,则 C1为单字词,一次分词结束,返回 1。3) 存在,判断 C

42、1C2是否为词,并从词典中获取该词下层节点汉字的最大长度,设为 n4) 若 n=0,一次分词结束,保存结果。5) 否则,i=2,转 6)。6 ) i=i+1,若 i=n+3,转 8);否则,转 7)。7) 再取一个字(此处为 Ci) ,判断第三层中是否有以 C3Ci开始的字(不需要恰好匹配,只要匹配开始的 i 个字就可以了)。8) 若存在,分词结束,返回最近一次能够恰好匹配的 C3Cj(j0.6时,能保证检索精度80%,从图4中看出,当相似度临界值60%。当相似度临界值取0.6时,本搜索模型可以保证检索精度80%,而检索完全度60%。为决定ICW,ITW,IAW,PTW在相似度计算中的权值,测

43、试从0.1 1.0的所有系数。最终得出ICW,ITW,IAW,PTW的权值分别为0.4、0.3、0.2、0.1时,能比较合理地反映出图片与这些文本的相关性,保证检索的准确性。结束语 在了解了搜索引擎的搜索原理公式和反馈原理之后,我们可以根据其理论做出相应的搜索引擎,并能作出比较搜索效果。但为了能更好的使用,还得去仔细更好的给文档进行分类,更多的对此引擎进行反馈训练查询等,使得 Web 搜索引擎具有更好的智能性和个性化的特点。参考文献1 张量,詹国华,袁贞明, 基于 Web 的图像搜索,计算机工程,2002.52 朱学芳, 多媒体信息处理与检索技术M,电子工业出版社,20033 陈滢 ,徐宏炳

44、,王能斌,协作式 Web 资源发现系统模型,计算机学报,1998.4 4 阳小华, 周龙骧,World Wide Web 的索引与查询技术,计算机科学 ,1997 5 吴立德等,大规模中文文本处理,复旦大学出版社,19976 李唐, 解读网络图像搜索引擎,Internet 网络,20017 陈立娜,Internet 上的图像检索技术,天极 yesky,2001.58 黄博士,网络环境下的图像检索技术,中国计算机用户,2003.12.309 Dunlop M.D. 1991. Multimedia Information Retrieval,Ph.D. Thesis. Computing Sci

45、ence Department, University of Glasgow, Report 199l/R21.10 Ellen M. Voorhees and Yuan-Wang Hou, “Vector Expansion in a Large Collection”, First Text REtrieval Conference TREC-1, 1993.11 Frisse M.E, 1988. Searching for information in a hypertext medical 14handbook. Communications of the ACM, 3 I7, pp

46、.880-886.12 R.Price, T.S Chua, and S.Al-Hawamdeh, Applying relevance feedback on a photo archival system. Journal of Information Science, 18:203-215, 199213 W.Niblack, R.Barber, and W.Equitz. the qbib project:querying images by content using color, texture, and shape. Technical report, IBM RJ 920381

47、511, Feb, 199314 Shih-Fu Chang, William Chen, and Hari Sundaram,Semantic Visual Template - Linking Visual Fetures to Semantics. IEEE Intern Conference on Image Processing, Chicago IL, Oct 199815 A.E. Cawkell, Imaging systems and picture collection management: a review. Information Service & Use, 12:301-325, 199216 T.S. Chua and W.C. Low, and Ch.X. Chu, relevance feedback techniques for color-based image retrieval. In Proceeding of Multimedia Modelling98, IEEE Computer Society, Oct, 1998.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报