1、 计 算 科 学 导 论 报 告 2013 年 12 月 Dec. 20130中国地质大学(武汉)计算机科学院计算机导论论文课题名称: 信息搜索技术浅析 姓 名: 黄 静 学 号: 20131001758 专业班级: 193133 系 ( 院): 计算机科学院 计 算 科 学 导 论 报 告 2013 年 12 月 Dec. 20130信息搜索技术浅论黄静(中国地质大学(武汉)计算机学院 193133班,湖北省武汉市 430070)摘 要:旨在通过浅析信息搜索技术,结合信息网络的现状,浅析在社会发展环境下,信息网络的发展。结合平时生活现象及详细资料统计来研究,得出自己的结论及感受。了解现代的信
2、息搜索技术,从中窥探到现代社会的进步与发展。信息网络发展与社会发展两方面,社会经济发展推动信息技术包括网络信息技术的发展,信息网络的发展亦推动社会经济的飞速发展。信息搜索技术是当今社会不可或缺的一部分,不仅仅是日常生活,更包括在工作、学习方面,信息搜索技术又只是信息网络的一部分,所以从这点可以看出信息网络对整个社会发展的作用,对推动社会发展所做出的巨大贡献和它的重要地位。关键词:信息搜索技术;信息网络;现代社会;社会进步发展;贡献;重要地位Information search technologyHUANG Jing(China University of Geosciences (Wuhan
3、) Computer College 193133 class,Wuhan City, 430070,China) Abstract:In order to search through the analysis of information, combining with the current situation of information network, in the social development environment, the development of information network. Combining with the life phenomenon an
4、d detailed statistics to study, draws the conclusion and experience their own. Understand the modern technology of information search, get a glimpse into the progress and development of modern society. Two aspects of information network development and social development, social and economic develop
5、ment to promote the development of network information technology, including information technology, development of information network is to promote the rapid development of social economy. Information search technology is a part of todays society, not only about daily life, including work, study,
6、information search technology is only part of the information network, so it can be seen that the information network on the development of the whole society, great contributions to pushing the social development and its significance.Keywords: information searching technology; information network; m
7、odern society; social progress; contribution; the important position引言:在学习计算机导论后,在计算机方面的知识得到了一些普及,于是对信息网络方面也产生了兴趣,着重对信息搜索技术进行分析。归纳总结关于信息搜索技术的知识和前人的见解,发表自我的理解。1 信息搜索与信息搜索技术发展状况1.1 信息搜索的发展状况信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索发展到计算机信息检索。计算机信息检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段。60 年代运行的脱机批处理检索用磁带作存储介质,借助于
8、受控词表,采用人工标引、人工编制检索策略进行信息检索;而计算机分时技术、数据库技术、远程终端和通信网络技术为联机检索提供了可能性,空间技术的发展又使之实现了信息、计算机、卫生通信三位一体的国际联机检索;光盘检索也是一种联机检索,它是在计算机、激光、高密度存储及精密伺服电机等高新技术成果的基础上发展起来的。目前,以文献单元描述体结构为基础、手工检索方式为主导的传统文献检索已发展到以信息单元组织结构为基础、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检照片尺寸为20mm*30mm;最好不用红色背景11索以及网络检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化基
9、础上的共同发展。1.2 信息搜索技术的发展状况信息检索技术发展了几十年,除了 MARC 格式、倒排文档等基础知识外,1929 年,波兰著名的逻辑学家 J.卢卡西维兹研究出联机检索系统的逆波兰算法;1968 年,日本科技情报中心的菊池敏典研究出介绍脱机批处理检索信息的菊池敏典算法,这两种算法都属于传统的布尔逻辑检索模型,都基于文本信息,特别是二次文献信息的检索。随着计算机技术的不断进步和信息量成倍地增加,人们对检索技术的要求也越来越高,尤其是网络技术和多媒体技术的出现,信息检索技术的软硬件环境极大提高,信息检索技术从传统的线性检索向超文本支持的非线性检索发展,传统布尔逻辑检索模型已不在信息检索中
10、占统治地位,文本信息也只是各类型信息中的一种,即使在文本信息检索模型中,概率推理模型和空间向量模型也正在占据越来越重要的地位。2 网络信息搜索与网络信息搜索技术通过计算机网络,人们可方便地获取信息,特别是因特网上的信息。Internet 是全球最大的信息资源宝库。根据 Internet 发展的实际情况 ,网上信息资源可谓是通过国际互联网可以利用的各种信息资源,Internet 作为一个整体 ,其根本价值就在于它能提供越来越多和越来越完善的信息服务。2.1 网上搜索工具及相关技术为了快速、有效地获得网上信息,人们非常注重网上检索工具及相关技术的研究。搜索引擎是Internet 上提供公共检索服务
11、的 Web 网站,它是新一代信息检索工具。搜索引擎的关键技术主要是“自动跟踪技术”和“指引库” 。搜索引擎专用的是自动跟踪标引软件,其标引的网罗性和检索词的专指性主要取决于机器人,只有完善机器人的标引机制,才能提高搜索引擎的检索效率。指引库在网络中处于核心地位,指引库中存放的是有关主题或用户所需信息的数据库或服务器的地址等信息。指引库的建立是突破传统信息资源建设的一项关键技术,也是对网络上信息服务模式的一种探索。随着网上自动标引、自动文摘、自动跟踪和自动漫游技术的逐步完善,会有更多的信息资源指引库和专业指引库,方便用户检索信息。目前,网上检索工具正向多语种化、综合化、专业化方向发展,已出现元检
12、索工具(即检索工具的检索工具),对选择和评估更新检索工具有着不可替代的作用,多元搜索引擎(集成式的搜索引擎 )具有去重功能,对检索结果进行统一的相关评估,能实现搜索引擎间的优化组合,通过电子邮件向用户随时提供网上信息。检索界面简洁、易学易用,检索结果格式清晰、内容充实、数据更新及时,检索所提供的网页链接可靠。2.2 网上信息搜索系统的关键技术网上信息检索系统的关键技术主要包括:(1)信息收集和存储技术,分人工和自动两种方式,其中自动方式是由“网络机器人”来完成的。(2)信息预处理技术,包含信息格式支持、转换和信息过滤,其中信息过滤是一项关键技术。(3)信息索引技术,涉及信息语词切分和语词语法分
13、析、进行词性标注及相关自然语言处理、建立检索项索引、检索结果处理技术,其中检索结果处理技术是关键技术,其核心是依据计算结果与查询词的相关程度来排序。3 多媒体搜索和多媒体搜索关键技术 3.1文本搜索与多媒体搜索按照检索的信息形式,信息检索分为文本检索和多媒体检索。即使在文本信息检索领域,全文本和超文本检索技术的作用和重要性也正在超越二次文献文本信息的检索。文本检索现在比较实用的技术是全文检索和自然语言检索。全文检索采用对全部文本内容建立索引信息的方法实现对海量文本信息的秒级查询。自然语言检索是指使用文献作者和文摘提要的编写者原来使用的语言,利用计算机进行自动标引(或少量人工干预 )和自动检索文
14、献的方法,包括文本检索、关键词检索、自然语言和自然语言与人工语言并用的检索方法。目前面向中文的全文检索已是一种成熟的技术,得到了广泛的应用。自然语言检索方面也取得了进展,主要问题集中在中文语词的切分技术上。传统的信息检索技术和数据库技术能有效地解决文本文献的管理和检索问题,但不适用于多媒体数据的管理和检索。多媒体信息包括文本、图像、音频、视频、动画等,其数据具有数据量大,语义表达形象,语义线索复杂等特点。所谓多媒体信息检索是对图像、文本、声音、动画等多媒体信息进二级分段标题, 5 黑,固定行距 15 磅,段前段后 3 磅2 2行识别和获取所需信息的过程。多媒体信息检索与传统信息检索相比,具有信
15、息类型复杂、交互、同步、实时、界面友好、操作简单等特性。多媒体信息检索系统并不是简单地对多种媒体进行检索,它必须既能对文本信息为代表的离散媒体进行检索,也能对以图像、声音等为代表的连续媒体的内容进行检索。3.2 多媒体信息搜索的关键技术对多媒体信息检索早期的方法是基于文本描述(即对多媒体信息添加文本说明), 现在主要研究基于内容的多媒体检索技术。基于内容的检索指根据媒体和媒体对象的内容语义及上下文联系进行检索,它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,首先进行特征抽取,再计算其相似性。多媒体文档不同于文本文档只有单一的线性结构关系,收录一个多媒体文档,首
16、先要对其进行内容和结构分析,提取多媒体文档的视听、语义和结构特征,作为用户浏览和检索的依据,同时为自适应的网络传输、互动式操作提供基本依据。目前,计算机识别技术的不成熟,以及不存在通用、高效的算法已成为多媒体基于内容检索技术发展的障碍。对多媒体内容的分析、自动摘要、索引和查询方法的研究已取得较大的进步。为解决多媒体数据的检索问题,除了可以分别利用基于关键字和基于内容等检索方法各自的优势外,还可以通过相关反馈技术(RelevantFeedback)、语义传播技术(SemanticPropagation)以及交互学习技术(InteractiveLearn2ing)把这两种方法有机地结合起来,从而大
17、幅度地提高检索系统的检索效率。压缩编码技术比增加存储器容量、通信信道的带宽及提高计算机的运算速度等方法来解决多媒体数据量大的问题更有效。压缩编码技术是指用某种方法使数字化信息的编码率降低的技术,其核心工作就是去掉信息中的冗余,即保留不确定的信息,去除确定的信息(可推知的 )。目前静止图像的压缩主要采用 JPEC(JointPhotographicExpertsGroup)静止图像的压缩算法,视频图像的压缩常用MPEG(MovingPicturesExpertsGroup)动态图像压缩编码算法系列,MPEG 标准系列不断升级发展,已有的 MPEG-4,MPEG-7 正在研制,它将有利于对多媒体信
18、息进行分类、检索、识别和加工制作,对多媒体数据库和多媒体信息检索的发展至关重要。多媒体存储管理一般采用客户机/ 服务器模式,此模式管理系统涉及到多媒体信息的传送技术,图像一般是压缩传输,音频和视频的传输一般采用流技术。为保持媒体对象之间固有的时间关系,多媒体同步技术的研究也倍受关注。新一代多媒体技术研究的目标是开创新的多媒体处理技术,让多媒体信息能够自动地适应网络环境,并拥有互动式操作能力,从而使用户能够快速地检索到所需要的信息。4 信息检索与信息检索技术的发展趋势未来信息检索主要在网上进行,网络信息检索的发展要依赖于信息新技术的支撑,如:信息推送技术、超媒体技术、动态链技术、知识发现技术等广
19、泛的研究和应用。网上未来的信息组织方式是面向对象的超媒体数据模型,它要实现节点和链的扩充与重新组合的动态机制,将信息的内容与组织结构分离,既能实现物理数据的相对独立性,又能保证节点和链的灵活组配与调整,这就要求超媒体技术向纵深方向发展,在传统的检索技术基础上,结合应用新型信息检索技术,实现线性与非线性、静态与动态结合。随着人工智能、认知科学、多媒体、计算机技术与网络技术等学科的发展,超媒体技术将逐渐适应人脑的思维方式,实现智能、高效、快速而灵活的信息检索,达到随心所欲地查找、迅速定位的水平。动态链技术是指对数据库中的数据建立一个超文本结构,附加在数据库上,然后与超媒体系统相连接,相关的数据动态
20、地连接起来,检索时,按照联想的方式,从一个站点跳到另一个站点。因为在数据库系统的基础上增加了一层专为超媒体系统设计的链服务,它的不断完善,使人们查询、检索更为方便。数据挖掘技术在 Internet 检索中应用广泛 ,给信息检索领域带来冲击,它指使用复杂的统计分析和模型技术从大量的数据或信息中抽取或识别出未知的、有趣或有用的最终可理解的知识模式。数据挖掘是知识发现的核心技术,知识发现技术(KDD)指利用数据库技术对数据进行前端处理,利用机器学习方法从处理后的数据中提取有用的知识(指精确抽取大量数据中隐含的、预先未知和潜在的有用信息),即从大量数据中发现有用知识的高级处理过程。知识发现技术的逐渐成
21、熟,将有利于人们充分利用信息资源。Internet 信息检索向智能化方向发展,智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成33检索策略进行搜索。智能信息检索是人工智能技术与检索技术的高度融合。Internet 上的人工智能产品越来越多,如:智能搜索引擎(IntelligentSearchEngine)、智能浏览器(IntelligentBrowser)、学习智能体 (LearningAgent)、知识共享智能体(Knowledge-SharingAgent)等已经走出实验室进入市场。现有智能检索技术的重点是让用户获得信息源方面的研究,即对用户
22、的查询计划、意图、兴趣等进行推理和预测,为用户提供有效的答案。几种探索方法为:基于机器学习、人工智能和智能体方法。今后智能检索技术研究还应在直接提供有关知识信息方面及信息推送技术等方面下功夫,使信息服务变被动为主动。为使信息资源共享早日实现,人们还应把更多的精力放在信息标准交换技术、信息格式转换技术、信息集成技术以及互工作技术、互操作技术等方面。4.信息网络与社会以计算机多媒体技术和网络通讯技术为代表的现代信息技术正在飞速发展,信息化浪潮对当今世界的政治、经济和文化等多个方面都产生了巨大的影响。4.1 社会要求信息搜索技术的发展目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对
23、封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的 Web 内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。以及互联网规模的急剧增大以及存储系统的规模日益增加推动了现有的信息检索技术的发展。4.2 移动互联网提供信息网络和对社会发展作用信息社会许给人类最大的承诺随时随地随身查找资讯、处理工作、保持沟通、进行娱乐,从梦想变成现实。越来越多的人在购物、用餐、出行、工作时,都用手
24、机查看信息、查找位置、分享感受、协同工作数以亿计的用户在移动互联网上生活、工作、交友这些崭新的人类行为,如同魔术师的手杖,使得人们的生活更加丰富多彩,变幻出数不清的商业机会,不断催生出新的产业形态,移动互联网已经成为当前我国互联网产业乃至经济社会发展最强有力的技术力量。移动互联网已经成为我国经济增长的强劲动力,并对未来的经济发展模式产生深刻影响。打造中国经济升级版,实现经济转型升级,互联网要发挥积极作用。要完善移动互联网基础设施,为更多的人上网用网创造条件,推动我国移动互联网均衡发展。将移动互联网广泛运用到工农业生产各个领域,加快推进移动互联网与云计算、物联网、大数据等下一代互联网技术的融合,
25、加快推进移动互联网与传统产业的融合,加快培育数字制造、电子商务、网上银行、网上贸易、远程医疗等新的产业形态和市场需求,提高工农业生产和现代服务业的信息化水平。中国未来几十年最大的发展潜力在城镇化。要紧跟城镇化建设进程,将移动互联网用于智慧城市、无线城市、数字乡镇建设当中,提高城市规划、建设、管理、服务的智能化水平,使城市运转更加高效、快捷、低碳。要加强移动互联网上的舆论引导,使主流舆论在移动互联网上占据强势,为经济社会发展营造良好网络舆论环境。4 4参考文献:1 黄晓倩.多媒体信息检索中的关键技术.图书情报工作,2000(10):52-55.2 焦玉英.从文献检索到信息检索.中国图书馆学报,2000(4):13-15.3 马静.网上信息资源及其检索技术智能化研究.图书情报工作,2001(1):56-58.4 Forouzan,B Mosharraf,F.计算机导论 .2003:313-314.5 百度百科 6 彭波.演讲实录.互联网大会.2013论文集中的析出文献