1、华中科技大学硕士学位论文图像搜索引擎姓名:陈翟翟申请学位级别:硕士专业:计算机软件与理论指导教师:曹忠升20080606华中科技大学硕士学位论文摘要随着互联网的高速发展,网络上的多媒体信息也在急剧的增加,因此人们对多媒体信息的下载、分类和检索的需求也就随之而来。传统的搜索引擎不适合于自动下载多媒体信息并分类保存,所以有必要研究针对多媒体的搜索引擎和数据库。同时,传统的检索方式大多还是针对于文本的检索,针对多媒体信息的研究并不是很多。互联网上的多媒体信息是以图像为主,因此,针对图像的搜索、下载和检索就成为了目前研究的热点。在传统的通用搜索引擎的基础上,通过改进爬虫的结构,设计了一个以整合图像多种
2、属性为综合值做索引的图像搜索引擎的系统结构,新增了针对图像的搜索、下载和检索的模块。这些模块都增加了对图像属性值处理的功能,包括图像的主题、或者图像的灰度直方图、或者它们的综合值的处理功能。图像底层特征的直方图差值是图像的重要属性。通过计算图像的灰度直方图,进而获取两张图像的灰度直方图差值。类似的,可以获取图像颜色直方图差值和纹理直方图差值等等,还可以获取图像其他属性的差值,通过高斯函数相乘的方法整合这些属性差值,获取一个判定图像差别的综合值,作为图像搜索引擎搜索和检索的依据。引入机器学习中半监督学习方法的概念,深化图像搜索引擎的功能,使之具有能够自动通过已有图像的甄别并吸收同类图像的能力。实
3、验结果表明,该图像搜索引擎能够从互联网上下载和主题词相关的图像,依据图像的属性进行分类并在数据库中建立相关的索引;同时,整合图像多种属性差值而获取的综合值也为图像的检索系统提供了一种比较好的索引参考。关键词:搜索引擎,图像,灰度直方图,图像主题,半监督学习I华中科技大学硕士学位论文AbstractWith the rapid development of Internet,multimedia information on the network is alsorapidly increasing,so the needing of download, classification and r
4、etrieval hasdeveloped.Traditional search engine is not appropriate to do that,so it is necessary for thedevelopment of multimedia search engines and databases.In the Internet,more ofmultimedia information is picture, therefore, the research of picture for download andretrieval has become a hot spot
5、currently.On the basis of traditional general search engine,designing image search engine,addingmodules for searching, downloading and retrievalling a new image with improving thestructure of crawler. There are some of image attributes, such as the subject of image, orimages of gray histogram, or co
6、mprehensive value of them which are dealed with inthese modules.By calculating the gray histogram of image, then getting distance of the two grayhistogram of image histogram. Similarly, access to images and texture color histogramdifference histogram margin, and so on, can also obtain images of the
7、other attributes themargin through a Gaussian multiplication method of integration of these attributes themargin and get a different image of the judge Comprehensive value, as image searchengine based on the search and retrieval.The introduction of “machine learning” in the semi-supervised learning
8、the concept, todeep the function of image search engine, make it automatically absorb new and similarimage through the existing images.Experimental results show that the image search engine can download image whichare related with image theme from the Internet, based on the attributes to classify im
9、agesin the database and the establishment of the relevant index. At the same time, theintegrated value which is integrated by attributes of images provides a good referenceindex for the image retrieval system. In this paper, the image search engines work forfurther studies to provide a certain value
10、.Keywords: search engine, image, gray histogram, picture theme, semi-supervisedlearningII独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。学位论文作者签名:陈翟翟日期: 2008年 6月 3日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:
11、学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文属于 保密 ,在_年解密后适用本授权书。不保密 。(请在以上方框内打“”)学位论文作者签名:陈翟翟 指导教师签名:曹忠升日期:2008年6月 3日日期:2008年 6月 3日华中科技大学硕士学位论文1 绪论1.1课题背景随着近十年来 Internet的发展,网络对我们的影响越来越大。而 WWW(WorldWide Web)技术以其直观、高效的使用方式和丰富的表达能力成为了 In
12、ternet上最重要的信息发布和交互方式。据英国 Netcraft统计,截止到 2006年 11月,随着博客和小型网站的激增,全球网站数量已经超过 1亿。WWW在中国的发展同样惊人,据中国互联网网络信息中心(CNNIC) 2007年 1月发布的数据显示:截止到 2006年12月,中国的网站数量约有 85万,网页数量更高达 44.7亿1。这给人们带来了前所未有的丰富的信息资源。但是,Web信息的急速增长,在给人们带来丰富的信息资源的同时,也为高效的使用信息资源带来了挑战:人们在丰富的信息资源中难以找到自己需要的信息资源。为了解决这个问题,人们在信息检索领域进行了大量的研究,发展了以搜索引擎为主的
13、 Web搜索服务,开发出了各种搜索引擎。目前的搜索引擎涵盖的网页数量巨大,覆盖范围广,容易扩展,搜索引擎在很大程度上解决了人们对互联网爆炸的网页数和信息检索信息的需求。但是现在搜索引擎大都是针对文本的搜索引擎,就算针对图像的搜索也是针对图像周边文字的搜索。可以针对多媒体本身,如图片和视频,进行检索的搜索引擎,发展还是相对滞后。通过何种方式在浩如烟海的网页上去搜索图片,需要的是合理的网络图像爬虫。而直接通过图像内容去对图像进行筛选需要选取合适的图像匹配算法。同时,随着现代多媒体数据库的发展,多媒体数据库的管理不再局限于人工的录入,还需要能够根据管理的要求自动地在网页上通过爬虫爬下海量的图像并分类
14、管理,而且能够以下载下来的这些图像为对象,进行相关的的检索和分析,满足特定数据管理的需要。在此背景下,图像的搜索引擎适应了互联网上多媒体信息爆炸性增长的趋势,1华中科技大学硕士学位论文越来越受到人们的关注。本文设计一个图像搜索引擎的结构,通过计算图像的属性差值并整合,完成对图像的下载、分类和检索的功能。1.2国内外概况1.2.1传统的通用搜索引擎随着互联网的发展,没有搜索引擎的帮助,在海量的页面中进行信息检索是十分困难的,所以搜索引擎技术正在不断影响改变着人们的生活,成为人们生活的重要部分。而这种需求就体现在传统通用搜索引擎的飞速进步上。1.2.1.1通用搜索引擎的分类目前,根据通用搜索引擎的
15、工作原理,大致可以将其分为三类2。(1)目录索引型搜索引擎这类搜索引擎以人工或半自动方式搜集信息,依靠编辑人员人工建立数据库。编辑人员访问 Web站点后根据自定的评判标准及主观印象对该站点进行描述,并根据站点的内容和性质将其归入某个预先分好的类别,存放在相应的目录中;用户查询时,可以通过关键词搜索,也可以按分类目录逐层检索。这类搜索引擎有Yahoo()、LookSmart()等。(2)基于网络机器人的搜索引擎这类搜索引擎利用一个称为网络机器人(又成为网络蜘蛛或网络爬虫)的程序自动访问网络,提取网络上的网页;之后将搜索到的网页加入到搜索引擎的数据库中,供用户查询。这类搜索引擎大致上分为三个模块:
16、信息收集模块、索引模块和检索模块。目前大型的通用搜索引擎大多是这类搜索引擎。这类搜索引擎比较著名的有 Google()、百度()等。(3)元搜索引擎这类搜索引擎是一种调用其他独立搜索引擎的引擎,它是用户同时利用多个搜索引擎进行网络搜索的中介。这类搜索引擎的特点是本身不需要从 Internet上提取2华中科技大学硕士学位论文信息,也没有存放网页信息的数据库,当用户提交查询的条件时,它将查询请求转化为一系列其他搜索引擎可以接受的命令格式,并行的访问其他的搜索引擎来进行查询,之后将各个搜索引擎返回的结果经过处理后返回给用户,因此又被称为“搜索引擎基础之上的搜索引擎”3。著名的元搜索引擎有 Dogpi
17、le()、Vivisimo()等。比较来说,目录搜索引擎的数据库是依靠专业人士的人工评价来建立的,所以其搜索结果具有较高的参考价值,但由于工作量的原因,其信息涵盖量不大,更新能力有限;而基于机器人的搜索引擎自动的在网络上收集信息资源,不需要人工干预,其信息量大,具有很大的覆盖面,而且页面的更新等都可以及时地反映在用户的搜索结果中,但是查询返回信息过多,需要用户再次筛选,查询的准确度不够高;而元搜索引擎的重点放在提高搜索速度、智能化处理搜索结果等方面,查全率和查准率在一定程度上比单个搜索引擎较高,但是没有质的飞跃,况且元搜索引擎需要等待所有的搜索引擎提交结果,且进行对格式不一、排序算法也各不同的
18、结果进行综合分析处理工作,所以速度通常比较慢。故目前通用搜索引擎大多使用的是基于网络机器人的类型。最近出现的主题搜索引擎也是在传统的通用搜索引擎的基础上发展起来的,在以上的三类搜索引擎中都有一定的发展。1.2.1.2发展状况通用搜索引擎经历了以集中式索引为主要特征的第一代搜索引擎和采用分布式检索方案的第二代搜索引擎阶段,目前已发展到第三代。第三代搜索引擎的主要特征是:索引规模继续增大,开始出现了个性化搜索,检索结果的评价更加重要。当前国内外的搜索引擎已经有很多,比较著名的有 Google,Alta Vista ,Yahoo,InfoSeek,MetaCrawler,SavvySearch等;国
19、内的也建立了诸如百度、搜狗、一搜等4 。Alta Vista:自 1995年开始全文搜索服务以来,被公认为搜索技术的先驱、领航者。其在避免双重搜索、地域垃圾等技术上不断革新,发展了类聚方法,改进了搜索结果的相关性。Exite:被称为“ 智能”搜索引擎,建立了一个基于概念的索引。其“智能”是基于对概率统计的灵活应用。它能够同时进行基于概念和关键词的检索。但是它在3华中科技大学硕士学位论文返回的结果中没有指定网页的尺寸和格式。Yahoo:它对 Web进行了有效的组织和分类,提供一个分层的主题索引,使用户可以从一个通常的主题进入到一个特定的主题。Google:当前搜索准确度和用户查询相关度最好的搜索
20、引擎。它主要优势在于:页面存储空间巨大,收录了百亿的网页;高性能的硬件服务器系统和分布式并行查询软件系统保证了其能够及时的响应用户请求;且查询结果不仅集中于大型热门网站,更多的是针对特定的页面。它所使用的 PageRank技术也是目前搜索界内研究热点。Baidu:百度是全球最大的中文搜索引擎,在中文分词方面比其他搜索引擎有较大的优势,但是在搜集的网页数量、页面相关度排序方面比 Google等搜索引擎还有一定的差距。1.2.1.3通用搜索引擎的相关技术通用搜索引擎需要一些非常重要的技术,如 HTML解析、基于链接结构分析的排序和中文分词等等。HTML解析技术在于将爬虫从一个网页爬行到其他网页后得
21、到的网页通过一定的方式进行解析,获得我们所需要的信息内容。链接分析的排序算法的任务就是要找出和查询条件相关的网页,并且按照相关性排名。在图像搜索引擎中,不光要对和主题相关的网页 URL进行排序,还要对这些网页中和主题相关的图像 URL进行排序。1997年 IBM的 CLEVER实验室提出了 HITS算法5,紧接着 1998年 S.Brin和 M.Henzinger提出了 PageRank算法6 ,目前其它链接分析算法主要都是从这两种算法中改进而来。PageRank算法由于其良好的响应速度,已经成功的运用于商业搜索引擎 Google7。HITS由于不能有良好的响应速度,还只是停留在实验室分析阶段
22、。构建一个中文的主题搜索引擎,不管是在网络爬虫的主题相关度判断部分还是在索引器建立索引的阶段,都需要进行对中文信息处理,中文信息处理就是计算机对汉语的音、形、义进行处理,词是最小的能够独立活动的有意义的语言成分8。可以说,分词的好坏直接影响了搜索引擎的质量。现有的分词算法可分为三大类9,10:4华中科技大学硕士学位论文基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法11。1.2.2传统的图像搜索引擎传统意义上的图像搜索引擎,是针对互联网上图像的周边文字的选取进而选取图像,其实质还是针对文本的搜索。一般是针对图像的文件名,路径名和标签中的关键字,而这样的传统图像搜索引擎却是新一代
23、图像搜索引擎发展的一个重要基础,下面介绍几个类似的搜索引擎12-14。1. Scour()Scour成立于 1998年,自称是第一个基于 Web的多媒体搜索引擎。因而严格讲,它并非是一个图像搜索引擎,但可以将检索限制在图像搜索上。它的工作原理是在文件名、路径名或标签中搜索检索词。因此主要使用关键词检索,可以用“ ” 或“”来增加或排除关键词,使用尽可能少的关键词将更有效。在高级检索中,可以将检索结果限制在 GIF、BMP、JPEG等形式中,另外,还可将检索限制在“ FTP”或“共享文件” 中。2Amazing Picture Machine(www. ncrtec .org/picture.h
24、tm)这是由 NCRTEC组织开发的一个“真正人工建立的完全关键词式索引”。Amazing Picture Machine后台的工作人员负责选择图像丰富的站点,然后对每幅选定的图像内容进行描述,给出关键词,关键词还用来表述某些相关概念。因此它的最大特点就是人工干预,关键词检索是主要的检索手段。不足之处是,关键词包含在源代码的诠释字段中,在搜索页面上看不到,因此必须通过观看源代码才能看到该关键词,这些关键词与图像站点的网站控制器使用的关键词是否一致也是随机的。3Image Surfer ()Yahoo的 Image Surfer主要是一个可用关键词检索的分类目录型图像搜索引擎。主题集中在流行文化
25、方面,例如:艺术、娱乐、演员、名模、体育,也包括其它一些主题,如科学、车、旅游、计算机等。Image Surfer可以提供三种检索途径:浏览分类目录、关键词检索或可视属性5华中科技大学硕士学位论文检索。如果检索主题包括在它的目录下,使用 Image Surfer是快速找到大量相关图片的较好途径。点击一个主题目录,将返回这一类中的前六幅简图(每一类下的图片从 50到几百不等)。在使用关键词检索时,Image Surfer主要在页面标题、目录、文件名或通向图像的链路中查找查询词。并且会找到有关这个词的各种形式而不限于输入的字符。例如,查找“tree”也会找到路径名中含有“tree” 的图像。但只有
26、使用较宽泛的主题词才可能检出结果,例如,用“petunia(牵牛花)”或“basset(矮脚猎犬)”检不出什么结果,但用“flower” 或“dog” 却可检出很多图片。1.2.3新一代的图像搜索引擎随着技术的发展,人们不再满足于简单的针对图像周边文字的检索,希望能够直接通过图像本身的自然语义去查询图片,虽然还没有完成达到最终的目标,但是也取得了一些进展,出现了一些图像搜索引擎,可以针对图像本身的灰度、颜色、形状和纹理等等的属性进行图像的识别。这就是新一代的图像搜索引擎。图像本身的灰度、颜色、形状和纹理等属性都可以绘成直方图,进而可以计算得出两张图像间的直方图差值。其中在这方面比较出名的是 W
27、ebSEEK搜索引擎4。WebSEEK是哥伦比亚大学开发的实验性系统。采用代理自动搜索可视信息并对其进行分类,目前已分类的图像有 66万多幅,形成了一个极富创新性的图像目录,主题分类是其主要优点。WebSEEK的工作原理是,搜索软件通过查看文件扩展名(如 GIF、JPEG)来识别图像,然后从标签、文件名、目录名和链接图像的链路中抽取相应的文本编制索引,形成主题类目。这种软件还能通过分析图像的颜色、高度、宽度、结构等可视数据,分辨出照片或图片、黑白、彩色或灰度图,可以让你用可视属性进行检索。这也是WebSEEK不同于其它图像搜索引擎的一大特色。1.2.4图像搜索引擎的发展趋势虽然现在还没有技术能
28、够达到针对图像自身自然语义的搜索,但在未来的发展6华中科技大学硕士学位论文让人们相信,总有一天技术可以达到这个层面。其中,有可能的发展方向就是“机器学习”或者 “人工智能”15,16。“机器学习”是研究如何适用计算机来模拟人类学习活动的一门学科,是研究计算机获取新知识和新技能,识别现有知识,不断改善性能,实现自我完善的方法。其外在的表现是使系统改进性能,适应环境,从而实现系统的自我完善。“机器学习”的基本框架图 17参见图 1.1。环境 学习 知识库 执行图 1.1 学习系统的基本结构“人工智能”是研究,开发用于模拟,延伸和扩展人的智能的理论,方法,技术及应用系统的一门新的技术学科。“人工智能
29、” 企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。“人工智能”可以为图像的处理上提供图像理解,识别,模式匹配等十分复杂的人工智能技术,但是这些技术还有待进一步的发展。Purdue大学的研究人员已经开发出了一种新的搜索引擎,这种搜索引擎不再使用关键词文本进行搜索,而是使用图像或者草图进行搜索。用户自己画一幅草图,搜索引擎就可以对数据库进行搜索,并找到所有与草图类似的图像。这种搜索技术首先可能将在工业上得到应用,而不是作为商业搜索工具出现。但是据 Purdue大学机械工程教授介绍,在未来 10到 15年之内,随着这种技术的发展,图像搜索引擎技术最终将可以出现在互联网
30、上。1.3本文的工作鉴于前面提出的课题背景和国内外概况,本文将研究如何在传统通用搜索引擎的基础之上,设计一个能够针对图像进行下载、分类和检索的图像搜索引擎。本文研究的工作主要包括四个方面。7华中科技大学硕士学位论文1.设计一个图像搜索引擎通过分析通用搜索引擎的结构,改进爬虫部分,设计并完成一个图像搜索引擎,使之能够下载、分类和检索图像。2.整合图像的属性值差值主要是针对如何整合图像的主题差值和图像的灰度直方图差值,也可以进一步的整合其他属性差值。3.检索系统提供一个检索系统,能够通过图像的各种属性对数据库中的图像进行甄别。4.系统的自我学习能力能够使系统在不受人工操作的情况下,通过已有的图像自
31、动的甄别和分类新的图像。8华中科技大学硕士学位论文2 图像搜索引擎总体分析与设计图像搜索引擎以传统的文本搜索引擎为基本框架,增加了一些新的功能模块,尤其是针对图像的处理分析功能模块。本章首先分析了图像搜索引擎的目标,给出总体设计思路,而后设计了总体结构,并对其中涉及到的关键技术进行了分析,为后续的研究打下了基础。2.1引言图像搜索引擎在当今多媒体信息日渐增多的基础上,其需求越来越高,需要设计出针对图像本身自然语义的分析系统。基于内容的图像搜索引擎,是建立在基于内容的图像搜索技术之上的图像搜索工具,可以为在 Web上浏览过的图像建立索引信息,能够进行图像分析和判别,为图像加注释,存储抽取出索引信
32、息并建立索引库。而其应用的空间也越来越大,将广泛的运用于生物、医药、安全等各个领域。图像搜索引擎在总体架构和框架上类似于传统的通用搜索引擎,但是在传统的通用搜索引擎的基础上增加了新的,适应针对图像属性分析的模块和图像下载保存的模块。本文中讨论的图像搜索引擎其主要的设计目标是让爬虫为多媒体数据库自动从互联网下载海量的图像,同时提供这些图像的来源。在下载完成这些图像之后,根据图像的主题和图像对于基准图像的灰度直方图差值等等属性计算值将所下载的图像分类管理,同时提供用户一个简单快捷的查询系统,其索引项即为以上说到的图像属性值。因此图像搜索引擎可以理解为跨越在搜索引擎和数据库之间专门针对图像的一座桥梁
33、。本章的目的是为了设计一种新的图像搜索引擎,以通用搜索引擎的爬虫作为基础,发展拥有针对图像下载、分类和检索功能的爬虫。在本章的后续章节中,将介绍爬虫的各个新增加功能的模块部分的结构,以及实现各个模块部分所需要的技术需求。9华中科技大学硕士学位论文2.2图像搜索引擎的结构本节将在分析传统的通用搜索引擎结构的基础上,设计图像搜索引擎的结构,并分析图像搜索引擎和前者的改进之处。2.2.1传统的通用搜索引擎的分析2.2.1.1系统框架图传统的通用搜索引擎的大致结构如图 2.1 所示18。互联网信息采集爬虫索引器信息处理建立索引索引数据库搜索器查询分析查询式 结果排序用户图 2.1 搜索引擎的框架结构搜
34、索引擎结构大致可以分为 3个模块:网络爬虫模块,索引模块和用户检索模块19 。网络爬虫从 Internet上搜集信息资源,索引模块将爬虫搜集的信息资源写入到索引数据库中,用户检索模块接收用户的查询条件查询索引数据库得到结果排序后返回给用户20,21。图像搜索引擎作为通用搜索引擎在特定需求下的一种延伸,其系统结构和通用搜索引擎是一脉相承的,在爬虫部分会加入一些新的模块,因此图像搜索引擎的系统结构框架图也可以参考图 2.1。10华中科技大学硕士学位论文2.2.1.2网络爬虫网络爬虫又称“ 网络机器人 ”、“网络蜘蛛”,是一个功能很强的网络扫描程序,搜索过程中遇到的网页间链接环状等一系列的问题的处理
35、,都需要网络爬虫。通用爬虫的工作流程如图 2.2 所示。开始将初始 URL送入等待队列等待队列为空?y将链接加入到完成 n 结束爬行队列从等待队列中得到 URL加入到运行队列下载页面页面含有其他链n 接?y将链接加入等待队列图 2.2 通用网络爬虫的工作流程在搜索引擎中,网络爬虫负责的工作主要是:通过 HTTP协议请求并下载 Web页面,分析页面并提取其中的链接,然后以循环迭代的方式访问 Web22。2.2.1.3索引器搜索引擎利用网络爬虫将网页抓取回来并存储后,下一步的工作就是建立索引数据库为搜索器提供搜索基础。索引器的功能是理解爬虫所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库
36、的索引表。故索引器的工作主要分为网页11华中科技大学硕士学位论文的解析、内容分析、索引库的建立等几个步骤。索引项有客观索引项和内容索引项两种23:客观索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符;对于中文等连续书写的语言,就必须进行词语的切分。索引表一般使用某种形式的倒排表,即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索
37、引项之间的相邻或接近关系。索引器首先解析提取的资源,得到需要的部分,剔除不需要的部分(例如对于HTML文档,我们需要的是其正文等部分,而对于页面内的广告等无用信息加以排除);然后对该部分进行分析,提取相关的网页信息(包括网页所在的 URL、编辑类型、网页内容包括的关键词、关键词的位置、生成时间、大小、与其他网页的链接关系等感兴趣的内容),然后建立以关键词为索引项的倒排文档。全文检索技术是索引和搜索部分的基础,分词技术的好坏也直接影响了索引和搜索的质量。2.2.2图像搜索引擎的结构2.2.2.1图像搜索引擎的框架图图像搜索引擎的结构和传统的通用搜索引擎的结构非常的相似,但也有改进的地方,以完成图
38、像搜索引擎专门针对图像的搜索、计算、检索的功能需求。其框架图如图 2.3。图像搜索引擎是建立在基于图像属性分析技术之上的图像搜索工具,可以为在Web上浏览过的图像建立索引信息,能够进行图像分析和判别,为图像加注释,存储抽取出索引信息并遍历索引库24。图像搜索引擎需要完成以下四种工作:(1)依据搜索的主题在网上搜集相关图像信息;12华中科技大学硕士学位论文(2)依据图像的属性计算图像的相似性;(3)为搜集到的图像信息建立并维护索引库;(4)回答用户的查询。整个过程相当于在增加数据库中可判断图像资料的数量,为将来针对图像的判定提供了基础资料25。Web网页爬虫爬虫图像的形状属性值图像所在网页 UR
39、L图像 URL高斯函数拟合所有属性值数据库图 2.3图像的颜色属性值图像的纹理属性值数据库管理系统查询结果查询拟合主题图像结果用户图像搜索引擎总体框架图13下载图片到硬盘华中科技大学硕士学位论文上图中,爬虫部分依然是继承通用搜索引擎的爬虫部分,只是对其进行了部分的功能扩充,即上图中记录下图像的 URL地址和图像所在网页的 URL地址,在爬虫爬行完毕后,由这些图像的 URL地址,下载这些图像并保存到硬盘上,同时要计算这些图像的属性值。2.2.2.2用户索引器图像搜索引擎的爬虫部分和索引部分与通用搜索引擎非常的相似,故略去不去细说,需要的话,可以直接参考通用搜索引擎的相关部分。但是图像搜索引擎的用
40、户索引器部分和通用搜索引擎还是有很大的不同之处,最大的不同就是,通用搜索引擎给出的查询条件是文本字符串,而图像搜索引擎给出的条件既有可能是图像的主题字符串,也有可能直接就是一张图像,这个时候,就需要对这张给出的图像进行相关的处理和计算,以得到这张图像的通用属性以适合数据库中的搜索查询。在图 2.3中,用户索引器的功能和性质也有所反映。两个“用户” 角色,一个提供示例图像,另一个提供图像主题。本文中的图像搜索引擎的用户索引器可以提供两种检索方式,一种是通过图像主题和图像灰度直方图差值分开来进行检索,图像主题做粗查询,图像灰度直方图差值做细查询,另一种是通过图像主题和图像灰度直方图差值的综合值来进
41、行检索。用户索引器的通用结构如图 2.4。图像语义关键词分类的条目信息启发式回答信息例图与修正参数直接检索联接检索意图检索 特征检索用户图像检索结果显示浏览特征抽取草图与附加描述特征生成图 2.4 用户索引器的结构图14华中科技大学硕士学位论文2.3图像搜索引擎的相关技术本节主要介绍图像搜索引擎所要用到的一些相关技术,包括 HTML的解析、图像的直方图、多种图像属性的整合和图像检索的分类等。2.3.1 HTML解析图像搜索引擎由主题关键词开始搜索,搜索和主题相关的网页,需要 HTML解析技术。当采用网络蜘蛛进行网页抓取时,网络蜘蛛为了从一个网页到另一个网页必须存储它所访问的每个页面中的链接,因
42、此它就要解析网页中存在的链接以便爬虫继续进行爬行;同时,面向主题的网络爬虫和索引器需要得到 HTML文档中的正文等部分,因此,HTML的解析技术是面向主题的网络爬虫和索引器工作的重要前提技术。需要合适的解析技术将这些部分从 HTML文档中提取出来。因此,由于图像搜索引擎与通用搜索引擎的不同,重新设计图像搜索引擎的 HTML解析很有必要。HTML的解析过程是将 HTML文档的流式数据结构化的过程。根据 HTML的语法定义,依次对输入的 HTML文档作词法分析和语法分析,其中词法分析是为了从字符流中识别出有意义的符号,这些符号是 HTML语法的最小单位,如标签、无标签文本单词、注释以及处理指令等;
43、然后,依据 HTML语法确定这些符号之间的关系(如标签与标签之问的层次包含关系等);最后,将解析的结果以语法树的形式输出26。图像搜索引擎由主题关键词搜索开始,通过文字搜索到相关的网页,同时还需要提取这些网页中的图像 URL地址,图像搜索引擎的 HTML解析是在通用搜索引擎的 HTML解析的基础上新增加针对图像提取的功能,因此图像搜索引擎 HTML解析工作会比通用文本搜索引擎的 HTML解析更加复杂。而新增的部分,就是专门针对图像 URL地址的,即以“.jpg”和“.bmp” 等结尾的 URL地址的,其具体流程可参见图 2.5 图像搜索引擎的 HTML解析新增部分框图。15华中科技大学硕士学位
44、论文开始结束 无 有无新网页 URL? 无有下载并存入数据库 有 有无新图像 URL?图 2.5 图像搜索引擎的 HTML解析改进部分2.3.2图像的直方图直方图最大的优点是能够清晰的显示各组或各值频率分布的情况以及之间的差值情况。可以给人以最直观的感受,同时也是计算图像直方图差值的基础。灰度直方图是图像的基本属性之一,可以用于判定图像像素点灰度化后的分布情况,是研究图像的一个重要属性参考。本文所研究的图像搜索引擎的目标在于整合图像的主题和图像的灰度直方图差值。因此,计算图像的灰度直方图是计算两张图像间的灰度直方图差值的基础。计算图像的灰度直方图,首先要将图像灰度化,然后统计各个灰度值上的个数
45、(也可以将灰度值在一定范围内归为一组进行统计),最后绘成统计图的形式。其具体的步骤如下:(1)计算数据的最大值与最小值的差(也叫极差);(2)决定组距和组数,组数的确定不仅与数据多少有关,还与数据的取值情况有关,组数取得合适,数据的分布规律会呈现得较为清楚,组数取得不合适,数据的分布规律则呈现得较为模糊;(3)决定分点,常用分点的小数数位比数据的小数位多一位,并且把第一组的起点稍微减小一点;16华中科技大学硕士学位论文(4)列频数分布表,用唱票法对落在各小组内的数据个数进行累计;(5)画频数分布图,建立一个平面直角坐标系,用横轴表示数据分组,每一段组距就是小长方形的宽,用纵轴表示频数,即小长方
46、形的高,实际画图时,如果用长度 h表示频数为 1的小长方形的高,那么频数为 k的小长方形的高就是 kh。除了灰度直方图外,颜色直方图和纹理直方图也是图像非常重要的属性,因为颜色、形状和纹理等属性都是判断图像的重要依据。计算图像的颜色直方图和纹理直方图的方式也和上面计算图像的灰度直方图的方式类似。2.3.3 多种图像属性的整合在图 2.1 的图像搜索引擎的总体框架图中,可以明确的知道图像搜索引擎所要做的工作,搜索和主题相关的网页,得到图像 URL地址,下载图像,计算图像的各种属性值,如灰度直方图差值、颜色直方图差值、形状差值和纹理差值等等,整合成一个综合差值,这样可以给出图像之间的差异性,得到一
47、个差距值,这样可以将图像的相似程度进行排序。由于前人在图像的颜色、形状和纹理等方面已经有了很多的研究成果,并且所作的研究得非常的深入,本文集中分析和讨论针对图像的主题和图像的灰度直方图差值这些图像的属性,以及通过高斯函数整合它们得到综合值,借以定量的推断出图像间的差距值。进一步的分析,还可以归纳得到针对图像所有属性值,比如颜色差值、形状差值和纹理差值等等,提出整合这些图像的属性差值的公式,如果这样,就可以从更广泛的角度来衡量图像之间的差异性。当然,这些属性值也可以用来检索数据库中的图像。前人针对图像的研究都是局限在主题、灰度、颜色、形状或纹理中的某一块,还没有全局的考虑如何将这些所有的属性整合
48、,本文就是从这一点出发,从整合图像主题和图像灰度直方图差值开始分析,通过设计可扩展的整合算法为整合图像的所有重要属性值打下了基础。其具体的流程如图 2.6。17华中科技大学硕士学位论文数据库中的图像基准图像 基准主题图像主题差值 图像灰度直方图 差值 整合图 2.6 图像属性的整合思路其中,图 2.6 中的“” 表示图像的其他属性与基准图像间的差值,比如颜色直方图差值、形状差值和纹理差值等等。2.3.4图像检索的分类和功能图像搜索引擎的功能在于下载和分类互联网上的图像,对于已经存于数据库中的图像,需要专门的检索系统提供按用户需求的检索功能。由图 2.1可知,图像检索系统部分是在爬虫部分完成对图
49、像的下载和分类之后专门针对数据库中已经记录的图像所作的图像检索。图像检索系统的设计目的是为用户提供多种不同的检索方式,使得用户能够方便快捷的找到。从现代多媒体数据库的方向来看,检索系统所遵循的检索条件也可以看做是现代多媒体数据库的索引。在本图像检索系统中,为用户提供两种检索图像的方式。1.分开检索分开检索,就是分别依据图像的属性进行图像的检索。这种检索方式,直观易懂,具体操作起来就是先由用户提供检索条件,分别列为属性 1、属性 2等等,然18华中科技大学硕士学位论文后针对数据库中记录的所有图像进行检索,符合属性 1的图像全部筛选出来作为结果 1,再对结果 1进行检索,符合属性 2的图像全部筛选出来作为结果 2,以此类推,最后得到结果 n,也就是最终的结果。这种检索方式的优点是简单快捷,容易实现,不需要额外的运算,但缺点是机械的分割了用户所提供的各个属性,不能有机的全面的来看待用户提供的属性,而且由于经过若干次筛选,最后得到的结果图像集会