1、从计量分析看我国图像检索发展现状和趋势Research on the Status and Development trends of Image Retrieval in China from Bibliometrical Analysis孙艳红(重庆交通大学, 重庆 400074)【摘要】通过检索“中国期刊全文数据库” ,对 1999-2008 年我国图像检索的研究论文进行计量分析,包括对此文献量、期刊情报源,著者情况、论文主题分布等,以期在科学量化指标基础上揭示我国图像检索研究领域的现状和发展趋势,为今后图像检索的理论与实践研究提供参考。【关键词】图像检索 计量分析 图像搜索 发展趋势
2、【分类号】G35 Sun Yanhong(Chongqing jiaotong university Chongqing 400074)Abstract This article makes a bibliometrical analysis to literature quantities, periodicals resources, the author and distribution of the themes of research papers on the subject of image retrieval in china from 1997 to 2008 by sear
3、ching “CNKI“ ,with a view to reveal image retrieval research status and development trend for future theory and practice research of image retrieval to provide reference.keywords image retrieval bibliometrical analysis image search development trend图像检索成为目前国内外诸多学者研究的重点,也取得了令人瞩目的研究成果,本文检索了中国学术期刊全文数据库
4、中 1997-2008 年我国图像检索的研究成果,并从文献量、期刊情报源,著者情况、论文主题分布等方面进行了文献计量分析,以期在科学量化指标基础上揭示我国图像检索研究领域的现状和发展趋势,为今后图像检索的理论与实践研究提供参考。1、 统计数据来源本文以中国学术期刊全文数据库(CNKI)作为统计源,从中筛选出样本文献。鉴于文章题目用词与文章内容的高度相关性,在高级检索下检索项都设为 “篇名” ,检索词分别为 “图像检索” , “图像信息检索” 、 “图像搜索”或“图像信息搜索” , 检索范围为19972OO8年的所有期刊,匹配为“精确”作为检索策略,检索时间为 2009年 5月 6日,最终筛选出
5、1997 年至 2008 年共 1084 篇文献作为本文的研究样本。其中题名为图像检索 1029,图像搜索 40,图像信息检索 12 篇,图像信息搜索 3 篇。2、 图像检索研究成果的计量分析2.1 文献量分析文献量是指某一学科研究者在某一段时间内所发表论文数量的多少。一个学科的成长过程与该学科文献的数量和内容构成有密切的关系,研究论文的数量在一定程度上可以反映出该领域的研究水平和发展状况,表 1 可直观看出我国图像检索领域 1997-2008年论文的发展演变情况。年 份 1997 1998 1999 2000 2001 2002文献量 0 1 10 17 35 73累计量 0 1 11 28
6、 63 136年 份 2003 2004 2005 2006 2007 2008文献量 74 119 146 161 221 227累积量 210 329 475 636 857 1084表 1 我国图像检索论文数量的年代分布情况从表 1 可以看出关于图像检索研究的文献量从1997 年到 2008 年呈明显的增长趋势,年均发文量约为 99 篇。 一般来说,在不同阶段科学文献增长的态势不同。统计研究表明,当学科处于诞生和发展阶段,科学文献呈指数增长,但科学文献的寿命较短。随着研究的深入,学科进入相对成熟阶段,科学文献增长就不能总保持原有指数速率,增长率变小,但文献寿命变长。因此,从表 1 看出目
7、前我国图像检索研究正处于相对成熟期,这个时期文献增长率变小,但绝不意味着本学科发展停滞,而是本领域研究取得了一定的进展后进入相对成熟的阶段,同时,也意味着图像检索领域正面临着新的突破,将产生出更新的分支领域,而内容上更新的文献又将进入一个新的急剧增长时期。2.2 期刊分布分析经统计,1997-2008 年间刊载图像检索专业论文的期刊有 350 种。根据布拉德福定律将每种期刊的载文量按递减顺序排列(见表 2) 。笔者将表 2 按期刊载文量分成 3 个区域,即载文量在 12 篇以上的期刊(19 种,发表论文 446 篇) ,定为核心区,载文量在 3- 11 篇的期刊 70 种,发表论文 324 篇
8、定为相关区,载文量 1-2 篇的期刊 261 种,发表论文 314 篇,定为离散区,并据此列出 1997-2008 年图像检索论文的离散状况表(见表 3) 。表 2 1997-2008 年图像检索专业论文期刊统计期刊数 量(种 )文 献数 量(篇 )期 刊 数量 累 计数 (种 )期 刊 数 *文 献 累计 数 (篇 )期刊数 量(种 )文献数 量(篇 )期 刊 数量 累 计数 (种 )期 刊 数 *文 献 累计 数 (篇 )1 83 1 83 5 12 19 4461 43 2 126 2 11 21 4681 29 3 155 2 9 23 4861 28 4 183 5 8 28 526
9、1 27 5 210 3 7 31 5471 24 6 234 7 6 38 5891 23 7 257 8 5 46 6293 22 10 323 12 4 58 6771 20 11 343 31 3 89 7701 17 12 360 53 2 142 8762 13 14 386 208 1 350 1084表 3 1997-2008 年图像检索专业论文离散状况表期 刊 数(种 )占 期 刊 总数 的 比 例(%)载 文 量(篇 )占 论 文 总 数的 比 例 (%)平 均 载 文密 度 (篇 /种 )核心区 19 5.43 446 41.14 23.47相关区 70 20 324 2
10、9.89 4.63离散区 261 74.57 314 28.97 1.20合 计 350 100 1084 100三个区域的期刊数之比为 19:70:261,可近似为 1:4:16,即布拉德福离散系数为 4。三个区的平均载文密度分别为 23.47,4.63,1.20,故核心效应明显。表 4 列举了核心区的 19 种期刊作为图像检索研究的核心期刊。表 4中这 19种期刊全部来自于计算机类和图书情报类期刊,占所有载文期刊总数的5.43%,但他们收录的文献数(446 篇)却占到了文献总篇数(1084 篇)的 41.14% ,可见这 19种期刊构成了图像检索领域内的主要来源期刊。这其中多数期刊为中文核
11、心期刊,说明相当一部分的研究论文有一定的学术水平和学术价值。因此,在进行图像检索研究时,我们可将研究成果首先投向这些期刊,这样即可提高命中率,也有利用扩大研究成果的影响。表 4 1997-2008 年图像检索文献的期刊分布2.3 著者分布分析对著者进行统计分析,以期确定图像检索研究领域的核心作者,从而有助于进一步了解图像检索理论的研究现状和发展趋势。表 5 1997-2008 年图像检索研究论文按著者分布发文篇数 著者人数 著者比例(%)10 1 0.1269 1 0.1268 2 0.2537 3 0.3806 6 0.7605 3 0.3804 9 1.1403 32 4.0502 112
12、 14.181 621 78.60总计 790 100按第一著者统计,1997-2008 年我国有 790 位作者在 350 中刊物上发表了 1084 篇有关图像检索方面的论文。从表 5 看出,发表 1-4 篇论文的作者共 774人,占著者总数的 97.97%,发表 5 篇论文以上作者共 16 人,占第一著者总数的 2.03%,他们的发文篇数 107 篇,占文章总数的 9.87%。其中发文量最多的是孙君顶,发文 10 篇,紧随其后的是王小玲,发文9 篇,其次王向阳、曾智勇各发文 8 篇,韦娜、赵珊、期刊名称 载 文 数 期刊名称 载 文 数计算机工程与应用 83 计算机应用与软件 20计算机工
13、程 43 福建电脑 17计算机应用 29 计算机技术与发展 13计算机应用研究 28 现代图书情报技术 13中国图像图形学报 27 软件学报 12计算机科学 24 情报科学 12计算机工程与设计 23 计算机研究与发展 12微计算机信息 22 微电子学与计算机 12小型微型计算机系统 22 现代计算机 12情报杂志 22项 目区 域安志勇各发文 7 篇,尚赵伟、王李冬、张问银、黄元元、郑秋梅、董卫军各发文 6 篇,邵虹发文 5 篇,如果说我国图像检索研究队伍有一个核心群体的话,那么发表 5 篇以上的 14 位作者就是这支队伍的核心作者。14 位核心作者大都来自于高校,这说明高校是图像检索研究的
14、主要阵地。其中孙君顶、曾智勇、赵珊、安志勇来自西安电子科技大学多媒体研究所,韦娜、董卫军来自西北大学,反映了这 2 所院校在图像检索领域具有较强的科研实力。另外,表五显示 621 位作者仅发表 1 篇,对图像检索的研究并未深入下去,由此可见图像检索工作领域还需要加快形成其核心作者群,以期能把研究向纵深发展。2.4 主题分析在本文所统计的 1084 篇论文中,笔者通过对文章的题名、关键词、摘要加以阅读分析,按照论文的主题内容进行归类。不同主题文献在 1997-2008 年间的分布如表 6 所示。表 6 论文主题分布情况主题 数量 /篇 比例%基于文本图像检索 47 4.33基本内容图像检索 55
15、2 50.92相关反馈 169 15.59相似性度量 45 4.15特征提取 255 23.52图像检索系统 158 14.58性能评价 28 2.58图像检索应用研究 186 17.16注:有的文章可能有多个主题,故主题数与论文数不相等。基于文本的图像检索早在 20 世纪 70 年代各国的科研人员就开始利用基于文本的图像检索技术(Text Based Imaged Retrieval,简称 TBIR)研究如何有效的管理图像数据,该方法虽然简单易行,但存在一些致命的缺点:如手工输入关键字的工作量过大,标识海量图像数据的关键字是不切实际的,而且手工标识不可避免地会带有个人主观性和不确定性等。为了
16、克服该方法的缺点,20 世纪 90 年代提出了基于内容的图像检索技术。因此,近十年对基于文本的图像检索研究甚少。基于内容的图像检索以基于内容的图像检索(Content Based Image Retrieval, 简称 CBIR)为主题的论文共 552 篇,占总论文数的 50.92%,排在第一位,遥遥领先于其他方面。这说明 10 年间我国对基于内容的图像检索的研究逐渐增强,无论是从低层视觉特征,即从图像的颜色、纹理、形状、轮廓以及对象的空间关系上来看,还是从高层语义的图像检索,均有广泛的探讨。同时也发现,用户通常偏好根据事物的语义来检索图像,越来越多基于内容的图像检索方面的学术论文偏向于从图像
17、的语义层次进行研究,这也表明基于内容的图像检索的研究,无论是从广度还是深度上,均有较大提升。相关性反馈在图像检索中,相关性反馈的引入可以给系统提供更多的信息,对于检索过程的正确进行具有指导作用。相关反馈是一种交互式检索过程,用户被要求对系统当前的检索结果给出相关性判断,系统在动态地学习用户反馈,以更好地把握用户的信息需求,给出更好的检索结果。但从实际应用角度来看,由于用户不可能提供太多的反馈信息,相关性反馈方法就成为一个小样本机器学习问题。如何解决好这个小样本学习问题,成为相关性反馈技术的关键。相似性度量在基于内容的检索过程中,相似性度量一直引起相关学者的关注,无论是图像特征查找,目标定位还是
18、建立图像特征索引,快速的相似性匹配算法都是必须的。尽管相似性度量研究难度较大,近几年这方面的论文也在不断增加。宋艳在基于相似性度量方法的图像检索中介绍了一种特征矩阵的构造方法并利用特征矩阵来计算图像的相似度,以此来进行图像检索。特征提取图像特征的有效提取是保证图像检索查准率的关键,对图像的特征提取可从颜色、形状、纹理、轮廓特征、空间关系等多方面着手,但对于图像的最重要特征如语义特征提取还缺少有效方法,这方面的研究将成为今后的一个热点图像检索系统与性能评价 对图像检索系统和搜索引擎的研究是近几年研究的一个热点,以此为主题的文章共 158 篇,占总论文数的 14.58%。与图像检索系统相伴而生的问
19、题就是如何建立科学、合理的评价体系,基于文本的检索可用查全率和查准率来衡量,但基于内容的检索由于人们对图像内容感知的主观性,很难用一个客观的标准来评价它,因此业内人士都在探讨如何确定一个相应的检索标准是今后研究的方向。3、 结束语通过对 1084 篇研究论文的计量分析来看,图像检索研究已经具有一定的水平和深度,发表论文数量大,且呈稳中有升的趋势,尤其是基于内容的图像检索研究已取得一定的成绩。但在一些关键技术上尚有许多问题等待解决。目前来看,如何建立高效、实用、快速的图像检索系统应是今后的主要发展方向。据此可以预见在未来一段时间,图像检索仍将是信息检索领域中令人关注的热点之一。参考文献 1、 赵
20、荣,郭哲敏 图书馆图片资源检索功能优化及其网络检索J 图书馆理论与实践 2008(3) 101-102.2、 陈天华 图像检索技术研究与发展J 北京工商大学学报(自然科学版) 2008(6)52-58 3、 胡全等 图像检索技术研究进展J 森林工程 2007(4)25-27.4、 于林森等 图像检索中的相似性判别及索引方法综述J 小型微型计算机系统 2007(2) 359-360.5、 范全青等 1993-2004 年我国图像检索研究论文的定量分析J 图书情报工作 2006(5)107-109,114.6、 宋艳等 基于相似性度量方法的图像检索 J 计算机应用与软件 2007(10) 166-168.7、 赵隽 基于布拉德福定律区域法的学术论文分布研究J 现代情报 2007(5) 26-28.作者简介:孙艳红(1978-) ,女,江苏徐州人,硕士研究生 主要研究方向为信息检索,馆员,发表论文数篇。