收藏 分享(赏)

web信息检索综述.doc

上传人:cjc2202537 文档编号:207665 上传时间:2018-03-24 格式:DOC 页数:8 大小:97.50KB
下载 相关 举报
web信息检索综述.doc_第1页
第1页 / 共8页
web信息检索综述.doc_第2页
第2页 / 共8页
web信息检索综述.doc_第3页
第3页 / 共8页
web信息检索综述.doc_第4页
第4页 / 共8页
web信息检索综述.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、WEB 信息检索综述?82?信息产业WEB 信息检索综述张培宾(郑州航空工业管理学院图书馆,河南郑州 450015)摘要:本文对目前比较常用的几种 Web 信息检索工具及其功能进行了绍,从检索工具,检索技巧和发晨,劳荨兄个另回进行了分析,并对 Web 信息检索的发展趋势进行了分析和预测.关键词:we】信息检索;检索工具;检索技巧1 概述因特网上丰富多彩的 Web 信息资源给人们带来_r 巨大的便利,每天上网浏览新闻,收发邮件,检索相关资料等几乎成了人们每日必需的一道:I:作餐.不论是哪种类型的网络信息,一般情况下,我们不知道其在网上存储的地址,也尢法记住那么多内容的地址.另外,其他一些媒体如图

2、像,音频和视频也大量存在.Web 是一个非常大的 ,非结构化且无处不在的数据库,这就需要有效的 T 具来管理,检索和从数据库中筛选信息.为了有效地查询和利用网上信息,人们开发了各种 Web 信息检索系统,即搜索引擎(SearchEngines).它是一类能自动搜索,组织Web 信息资源,并提供检索服务的信息服务系统 .Web 信息检索的基本形式有三种 .第一种搜索引擎 ,它标引一部分网络文献作为一个全文数据库;第二种是 Web 目录,它按主题来对所选的 Wet,文献进行分类;第三种还没有完全成熟,却利用超链接结构来检索网络.1.1 实现 Web 信息检索的条件 .实现 Web 信息检索必须具备

3、包资源,信息处理干 u 信息传输这 j 大条件.其中,信息资源指对各种信息进行分类,汇总,力 l1 工,组织,按照客观事物的相互关联建立起来的有序结构;信息处理指利用计算机信息进行的系列筛选, 反馈,匹配,计算等加:操作;瞧息传输指人和计算机借助通信网络进行的信息传递和交流.因此,信息经济学专家提出:“信息网络是现代通信网,l1 算机网和信息资源网的综合,现代通信,电子计算机,信息资源(信息内容)三者互相渗透,连接,联合而形成的全方位的服务网络.这种网络按不同途径发展,往信息资源开发,利用和共享这个方向下趋向三网合一“.1.2 面临的主要难题.主要有两类:数据本身的问题和用户及其检索系统交互的

4、问题.a 数据的分布 .I 生:数据分布在许多计算机和平台上.网络互联的有效带宽及其可靠 I 生经常发生变化.b.不稳定数据的大量存在:WEB 资源经常更新,导致要处理大量空链接和重新定位的问题 .C.非结构和冗余数据:由于网络的共享性,许多网络资非常相似或有大量的镜像存存.不同的资源有着不同的概念模型,缺乏一致生.d.异构数据:全球文献巾有各种语种,如扣丁语系和汉语等,而且不能简单地通过软件来解决.2Web 信息资源检索方法与搜索技术2.IWe,信息资源检索方法.2.1.1 直接访问信息源搜索的途径 .通常的做法足通过 IP 地址直接打开网站或网页,一般是在已知所查询的信息在某一具体的网站或

5、网页时使用,不过这种方法需要记忆大量的域名,网址.一种更简便的方法是安装网络实名插件,可在浏览器的地址栏或搜索引擎网站中,直接输入中英文网站名称,如,3721 网络实名,州输入网站,企事业单位,商标,产品等炎键词的中英文名称,就能直达对应的网站或网页.2.1.2 利用网络检索具.可使刚综合眭搜索引擎,如稚虎,搜孤,百度,网易,Google 等一些大的门户网站,在查询过程一般提供分类查询和关键词查询.有些网站还提供很多网址的链接,根据需要点击,可直接进入网站当需要检索某些专业性或特定信息时,可使 JlIj题搜索引擎.例如专业地图搜索的 T 具有图吧(http:,/wwwmaphal-COlll,

6、/),矧行天下 mpw,2p.coin).2.1.3 构造检索提问式的要点.存检索中,有两个最为关键的步骤,一是慨括检索提问,选择精确的检索词;二是正确恂造检索提问式,达到检 H目的.a 灵活运用各种运算符号.要考虑检索提问中的关键词是否有同义词,近义词,以及词形的各种变化,活运用各种运算符号,截词符号,邻接箅符等,扩大词语的检索范嗣,降低漏检的可能性,提高检效率.h.准确构造检索式.,jj 有多个俭索词,且词语之间辑天系复杂时,应分期分步制定检索式,以免将检索闾的逻辑关系并混.即使是检索专家也不能保证开始检索就能找到想要的内容,要在上一次检索结果的基础上不断修改检索提问和改变检索策略,直到检

7、索到满意的结果.2.2Web 信息检索的一些关键技术 .2.2.1 基于内容的检索技术 .Web 是一个分布式的,全球性的数字图书馆模型 ,它的 URL 相当于地址的文件标识器.而现实中,常因 URL 会变动而导致搜索的返回结果变得无用.另一种代替 URL 来定位搜索目标的方法是基于内容的方法,它是一个包含关键词的表,可作为检索目标网页的查询条件.这种查询称为基于内容的寻址,或概要查询.它的优点是,当一个目标网页移动时,基于内容的寻址定位也不会改变,从而仍然可以得出正确的检索结果.另方面,互联网上存在着多种格式的文档,除了文本之外还有图像,音频,视频.人 f1 使用搜索引擎式基本上都是进行文本

8、搜索,对多媒体内容的检索技术尚不成熟.就此问题目前提出了基于内容的图像检索技术,其 1 二作原理是,由机器自动提取包含图像内容的可视特征:颜色,纹理,形状,对象的位置和相互关系等.对数据库中的对象和查询样本图像在特征空间进行相似匹配,检索与样本相似的图像.2.2.2自然语言处理技术.自然语言处理长期以来一直是人工智能的一个核心研究领域.比较基础的技术有自动分词,人名和机构名的自动识别技术,自动标引技术等,其它像信息抽取,自动文摘,文档自动分类,中文概念词的自动发现以及概念词之间的语义关系的确定等复杂技术也都必不可少.应用了这些技术的搜索引擎我们称之为智能搜索引擎.实现智能搜索的过程主要分三部分

9、:语义理解,知识管理和知识检索 .其中,知识库是实现智能搜索的基础和核心.2.2.3 集成搜索引擎技术.这种技术是将搜索引擎系统建立在多个现有的搜索引擎之上,提供对这些引擎进行统一访问的服务.集成搜索引擎自己并不维护所有文件的索引.但是,为了提供更好的服务,一个复杂的集成搜索引擎通常会维护一些关于底层搜索引擎内容的信息.当向集成搜索引擎提【叶 I 查询以后,它能将该查询分送到适当的底层搜索引擎,再搜集和整理底层引擎返回的结果.将多个搜索引擎组合在一起,可查询的网络覆盖面将比任何单个搜索引擎都要大很多.由一个建立在多个专题搜索引擎基础之上的集成搜索引擎代替综合引擎,可以解决存 Web 上搜索的可

10、扩展性问题 .此外,集成搜索引擎还可以方便对多个引擎的查询,提高检索的有效性.2.2.4 数据挖掘技术与检索技术的结合.数据挖掘技术也称数据库知识发现技术,被广泛的应用于数据仓库,并行分布式数据库中,以发现数据中隐含的规律和趋势,用来分析经验,解释原因,制定决策,指导改进和预测趋势,使数据库具有知 SY,Ig 的詹陛.数据挖掘技术涉及许多学科的技术,包括数据库技术,统计学,机器学习,模式识别技术以及信息检索技术.现在有一种新技术称为 Web 挖掘技术,它实现对 Web 存取模式,Web 结构和规则,以及动态的 Web 内容的查找 .Web 挖掘技术最大的特|就是从大量数据巾发现有用的知识 ,因

11、此发展面向互联网的知识挖掘技术,并将其与灵活使 Hj 的信息检索技术无缝的结合起来,将会向人们提供一个全新的,方便的,内容空前丰富的学)J 知识和问题的求解途径.3 搜索引擎及其技术3.1 搜索引擎构成.搜索引擎是一种最为常见的 Weh 信息检索系统,主要由四部分组成:a 网络机器人:是一个功能很强的程序 ,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化就重新获取该网页,否则根据该网页中的链接继续去访问.网络机器人访问贞面的过程就是对互联网上信息遍历的过程.b.索引器:网络机器人将遍历得到的页面存放存临时的数据库中.索引器的作用就是将文档表示成为一种便于检索的方式并存放在索引数据库

12、中.索引一般按照倒排义件的格式存放.n 搜索软件:该软件_j 来筛选引擎巾无数的网页 f 荒息,从索引中找出与用户查询请求相关的文档,挑符合查洵要求的网页并且把它们分级排序,与查询关键字相关 I 生越大的越排在前,然后将分级排序后的结果显示给查询用户.d.用户接口:为用户提供可视化的查询输入和结果输界面.在查询输入界面中,用户按照搜(下转 265 页)工程科技?265?混凝土整体浇注建筑物质量问题探析颜克涛(黑龙江新陆建筑工程集团,黑龙江牡丹江 157011)摘要:混凝土工程包括配料,搅拌,运输养护等过程.在整个工艺过程中 ,各工序紧密联系又相互影响,如果其中任一工序处理不当,都会影响混凝土工

13、程的质量.关键词:混凝土;结构;质量;分析1 概述建筑工程中混凝土的浇注质量是保证钢筋混凝土结构质量关键问题之一,现场施工中混凝土的施工质量,直接影响着建筑物的适用性,同时对工程造价也有很大影响,施工质量的好坏也直接影响到一个施工企业的声望和信誉.因此在工程施工中,施工人员必须对混凝土的施工质量进行足够的重视,以确保工程质量.在此我们首先对影响混凝土强度的因素进行一下全面分析.2 影响混凝土浇注质量因素混凝土的浇注质量要求就是保证混凝土的均匀性和密实性.混凝土的主要指标之一是抗压强度,从混凝土强度表达式不难看出,混凝土抗压强度与混凝土中使用水泥的强度成正比,按公式计算,当水灰比相等时,高标号水

14、泥比低标号水泥配制出的混凝土抗压强度高许多.因此,当水灰比不变时,企图用增加水泥用量来提高温凝土强度是错误的,增加水泥用量只能增加混凝土和易性,增大混凝土的收缩和变形.综上所述,影响混凝土抗压强度的主要因素是水泥强度和水灰比,要控制好混凝土质量,最重要的是控制好水泥和混凝土的水灰比两个主要环节.此外,影响混凝土强度还有其它不可忽视的因素.粗骨料对混凝土强度也有一定影响,当石质强度相等时,碎石表面比卵石表面粗糙,它与水泥砂浆的粘结性比卵石强,当水灰比相等或配合比相同时,两种材料配制的混凝土,碎石的混凝土强度比卵石强.因此我们一般对混凝土的粗骨料控制在 3.2era 左右.细骨料品种对混凝土强度影

15、响程度比祖骨科小.所以混凝土公式内设有反映砂种柔效,但砂的质量对混凝土质量也有一定的影响.因此,砂石质量必须符合混凝土各标号用砂石质量标准的要求.由于施工现场砂石质量变化相对较大,因此现场施工人员必须保证砂石的质量要求,并根据现场砂含水率及时调整水灰比,以保证混凝土配合比,不能把实验配比与施工配比混为一谈,混凝土强度只有在温度,湿度条件下才能保证正常发展,应按施工规范的规定予在养护,气温高低对混凝土强度发展有一定的影响.冬季要保温防冻害,夏季要防暴晒脱水.3 混凝土标号与混凝土平均强度及其标准差的关系混凝土标号是根据混凝土标准强度总体分布的平均值减去1.645 倍标准值确定的.这样可以保证混凝

16、土强度确定均有 95%的保证率低于试标准值的概率不大于 5%,充分保证了建筑物安全,由此推定,抽样检查的几缓试件的混凝土平均强度确定大于等于混凝土设计标号.通过公式计算可以看出,施工人员不但要使混凝土强度平均确定大于混凝土标号,更重要的是千方百计的减少混凝土确定的变异性,即要尽量使混凝土标准差降到较低值,这样,既保证了工程质量,也降低了工程造价.4 混凝土质量控制的关键环节混凝土质量控制包含两个基本内容:a.使混凝土达到设计要求的质量标准.b.在满足设计要求的质量指标前提下尽量降低成本,这两条要求实际上是尽量降低泥凝土的标准差.混凝土的强度有一定离散性,这是客观的,但通过科学管理可以控制其达到

17、最小值,因此混凝土标准差能反映施工单位的实际管理水平,管理水平越高,标准差越小.可以说,混凝土质量控制实质上是标准差的控制.实际上控制标准差应从以下几个方面人手.4.1 设计合理的混凝土配合比.合理的混凝土配合比由实验室通过实验确定,除满足确定,耐久性要求和节约原材料外.应该具有施工要求的和易性.因此要实验室设计合理的配比,必须提供合格的水泥,砂,石.水泥控制强度,砂控制细度,含水率寸含泥量等,石控制含水率及含泥量等.只有材料达到合格要求,才能做出合理的混凝土配合比,才能使施工得以正常合理的进行,达到设计和验收标准.4.2 正确按设计配合比施工.按施工配合比施工.首先要及时测定砂,石含水率,将

18、设计配合比换算为施工配合比.其次,要用重量比,不要用体积比.43 加强原材料管理混凝土材料的变异将影响混凝土强度.因此收料人员应严把质量关,不允许不合格品进场.另外与原材料不符及时汇报,采取相应措施,以保证混凝土质量.4.4 进行混凝土强度的测定我们以 28 天强度为准,为施工简便和质量保证,我们一般做 7 天试块等,以对混凝土强度尽量根据其龄期测定其发展,以明确确定其质量.5 结论本文对在混凝土整体结构施工中常见的结构和混凝土浇注进行了比较详细的阐述,反映了施工中常见质量问题的解决方法,其详述了常见的处理方法,为施工组织者提供可靠的施工依据.(上接 82 页) 索引擎的查询语法指定待检索词条

19、及各种简单高级检索条件.在输出界面中,搜索引擎将检索结果展现为一个线陛的文档列表返回给用户.3.2 搜索引擎的工作原理及技术.搜索引擎的工作原理是:使用网络机器人遍历 Web,将 Web 上分布的信息下载到本地文档库 ,然后对文档内容进行自动分析并建立索引,对于用户提出的检索请求,搜索引擎通过检查索引找出匹配的文档(或链接)并返回给用户.目前网络上的搜索引擎一般使用两种技术来实现信息检索:一是使用网站分类技术,由专家对网站进行归纳和分类,即把网站进行树状的分类.网站分类技术为网络信息导航带来了极大的方便,但其描述能力不能深入到网站的内部细节,因此用户不能查询网站内部的重要信息.二是使用全文检索

20、技术.全文检索技术处理的对象是文本,它能够对大量文档建立由字(词) 到文档的倒排索引.在此基础上,用户使用关键词来对文档(网页) 进行查询时系统将给用户返回含该关键词的网页.全文检索是一个很成熟的技术,它能够通过关键词匹配把相关的网页查出来,但是这又导致了它的缺陷j 回的信息量太大 .4 结论Web 信息检索涉及的领域很广 ,从信息资源的采集 ,布置到检索技术的更新以及检索工具的优化,其总体目标都是使 Web 信息资源能够得到更有效的利用.面对如此海量的信息,需要不断地进行关于 Web信息检索方面的探索与研究,相信在理论和技术的支持下,Web 信息检索会达到人们期望中的辉煌.参考文献【1】陈艳红,盛子刚.DC 元数据与 Web 信息检索(综述)叨.北科技师范学院,2005(2).【2 储 筠.IntemetWeb 信息资源的利用与检索技术册.绥化学院,2005(4).13 瑚明-Web 环境下产品信息检索策略 IJ安徽科教,2004(12).4l 霍艳蓉.Web 信息检索的关键技术 Ll 现代图书情报技术,2002(6).f5】赖茂生 .Web 信息检索技术及研究进展现代图书情报技术,2004(5).f61 宴 lj 振岩,等.Web 信息检索与 Web 数据挖掘凹微机发展 ,2003(7).作者简介:张培宾(1981 一),男,硕士,助理馆员,研究方向:图书馆网站无障碍建设.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 教育学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报