1、2. 网络信息资源检索技术,2.1网络信息检索技术,2.1.1布尔逻辑检索技术,常用的布尔逻辑算符有三种 逻辑与AND 逻辑或OR 逻辑非NOT 布尔检索具有运算程序简单、查询描述准确、查准率较高等优点。运算符优先顺序为:NOT、AND、OR,也可以利用括号改变其执行顺序。,A,B,B,A AND B ( A * B ),A,B,B,B,A OR B (A+B),A OR B (A+B),A,B,B,B,B NOT A (B-A),A NOT B (A-B),2.1.2截词检索技术(模糊检索),按截断的位置划分: 前截断(后方一致) 后截断(前方一致) 中截断(中间一致),无限截词,前截断(后
2、方一致),后截断(前方一致),中截断(中间一致),2.1.3邻接检索技术,同字段邻接 邻接符号F(field),检索式为A(F)B,表示它关联的两个概念A、B必须同时在同一字段中出现。,2.1.3邻接检索技术,同自然段邻接 邻接符号P(paragraph),检索式为A(P)B,表示它关联的两个概念A、B必须同时在同一自然段中出现。,2.1.3邻接检索技术,同句邻接 邻接符号S(sentence),检索式为A(S)B,表示它关联的两个概念A、B必须同时在同一自然句中出现。,2.1.3邻接检索技术,有间断无序邻接 邻接符号nN,检索式为A (nN )B,表示它关联的两个概念A、B间可插入0n个其他
3、词汇,且两个概念前后顺序不定,其中n代表可插入词个数。n如果为零,检索式写作A (N )B。 Econom?(2N) recovery可以检出 econmic recovery recovery of the economy recovery from economic troubles,2.1.3邻接检索技术,有间断有序邻接 邻接符号nW,检索式为A (nW )B,表示它关联的两个概念A、B间可插入0n个其他词汇,且两个概念前后顺序固定,不可改变。其中n代表可插入词个数。n如果为零,检索式写作A (W)B。 Price(2W)inflation可检出 Price levels and inf
4、lation,2.1.4 限制检索技术,是对检索词范围加以约束,以减少过多的检索无用的检索结果,提高检索准确程度。,2.2 构造检索表达式,1、检索近5年来有关国际投资流向的文献:2、检索含有草莓或香草但不含巧克力口味的冰激淋:,1、检索近5年来有关国际投资流向的文献: (国际+英国+美国+法国+日本+德国+欧盟)and(风险投资+证券+投资银行+股票+基金+资金流向)and(2005+2006+2007+2008+2009) 2、检索含有草莓或香草但不含巧克力口味的冰激淋: (strawberrg OR vanilla) NOT chocolate AND ice-cream,检索用词的选择
5、方法 2.2.1检索用词的取名分析方法 1.同义分析: 同物异名 例WWW/3W/ Web/万维网/环球信息网/全球浏览网 全称与简称 例北京大学/北大 例United States of America/United States/America/U.S.A/U.S. 异称 例马铃薯/土豆 电动机/马达 的士/出租车 代称词 例抄手/馄饨 空间通信/宇宙通信 有的检索工具对同义词不作处理,有的选择比较正式、通用的词,对于不同的检索工具必须区别对待. 2.逐字展开 例温度计温度测量仪 足针足部针灸 3.部分说明 例数字图书馆的人机效率分析数字图书馆+可用性 4.还原补全 例记忆跟踪雷达根据记忆
6、保持对目标的自动跟踪5.检索用词的定义分析方法6.检索用词的内容分析方法 例发电厂烟气净化 发电厂烟气灰尘、二氧化硫、氮氧化物 净化除尘、脱硫、脱硝静电除尘、脉冲放电、布袋除尘、过滤、洗涤塔、磁性吸收剂、流态燃烧技,2.2.2 检索式的生成方法 一个检索式就是一个检索条件。通过对用户检索提问的分析归纳,结合检索工具的具体情况,我们可以构建检索式。构建检索式的方法有:切分、删除、替换、聚类、补充、增加、组合1切分 以词为单位切分检索提问要求保持原意: 例信息时代的个人隐私问题 切分为 信息 | 时代 | 个人 | 隐私 | 问题 信息时代 | 个人隐私 | 问题 信息时代 | 个人 | 隐私 |
7、 问题 例舰艇学院 切分为 舰艇 | 学院 例北京图书馆 切分为 北京 | 图书馆2删除 删除不具有检索意义的词、高频词、低频词: 例信息时代的个人隐私问题 经删除处理后为 信息时代 | 个人隐私 或 信息时代 | 个人 | 隐私 例世界信息产业发展的现状与趋势 经删除处理后为 世界信息产业3替换 检索提问中的词可能比较模糊、宽泛、狭窄或者不可行,必须作替换处理。 例空气中细菌的计算方法 经替换处理后为 空气污染的计算方法,4聚类 对切分出来的词按语义进行聚类: 例海军广州舰艇学院 先切分为 海军 广州 舰艇学院 然后进行聚类 海军广州舰艇学院海军广州舰艇学院+海军舰艇学院+广州舰艇学院+舰艇
8、学院5补充 补充缩略词或同义词或相关词: 例检索海军广州舰艇学院的信息 海军广州舰艇学院水面舰艇学院+水面舰艇学院+第二舰艇学校 例检索图书情报术语方面的资料 图书情报术语图书情报学术语+图书馆学术语+情报学术语6增加限义词 对多义词必须进行限制,以明确词义: 例伦敦 伦敦英格兰 伦敦安大略 例filtering information filtering water information7 组合 当词素相同而位置不同时,需要通过组合以限定词义: 例清洁用机械 清洁*机械 例机械的清洁 机械*清洁 例航天器可靠性实验 航天器 | 可靠性 | 实验航天器*可靠性实验,小结:拿到一个课题,不要盲
9、目上机检索,先要制定好检索策略,做到胸中有数,才能有的放失。 首先透彻地分析检索课题的主题内容,确定与课题相关的主题概念,再将概念转化为检索词,注意应避免使用一般性的词作为检索词;其次,选择这些检索词的同义词和相关词。 如果检索课题是综合性或跨学科的,这类课题涉及到许多相关研究领域,仅用几个检索词是概括不了的,应在相关的研究专题领域选择相应的检索词。 然后,利用逻辑算符对检索词进行必要的逻辑组配。检索时要根据课题的需要,及时调整检索策略。当文献量过少,可使用逻辑或扩大检索范围。遇到复杂的课题,可适当考虑使用逻辑算符进行组合检索。为节省检索时间,最好由严到宽地制定几套检索策略,以供检索中随时调用
10、。 注意事项:1.检索者使用的检索词与检索系统中规范的词语有一定差距,致使检索结果不理想;2.不同的检索系统,要求使用的检索运算符不一样,不是均支持所有运算符的组配。检索之前应先了解所使用的检索系统的要求。,2.3 上机检索程序,产生漏检的原因可能有: 没有用足够的同义词、近义词、隐含概念; 位置算符用得过严、过多;逻辑与用得太多; 后缀代码限制得太严;工具选择不恰当; 截词运算不恰当;单词拼写错误; 文档号错误;组号错误;括号不匹配等。,产生误检的原因可能有: 检索词一词多义;括号使用不正确; 检索词与英美人的姓名、地址名称相同; 不严格的位置算符的运用; 逻辑运算符号前后未空格; 截词运算
11、不恰当; 检索式中没有使用逻辑非运算; 检索式中检索概念太少; 从错误的组号中打印检索结果,提高查准率的方法有: 下位概念检索 字段限定检索(篇名、叙词和文摘) 布尔逻辑组配检索(逻辑与、逻辑非) 位置运算检索 限制选择功能检索(时间、语种) 进阶检索或高级检索,提高查全率的方法有: 上位概念、同义词、近义词检索 截词检索 减少对文献外表特征的限定 布尔逻辑组配检索(逻辑或) 位置运算检索(W-N) 选择更合适的数据库检索,检索练习,检索训练: 1.某人要去ATLANTA、GEORGIA(格鲁吉亚旅游饭店,GEORGIA hotel guide)旅行,要求提供餐馆指南。2.海南省有关机构委托查找国外对南海问题的评论文章。3.查询纳米技术在纺织行业中的应用方面的书目信息。 4.查询软件项目管理方面的书目信息。课外训练: 利用本次课所学知识检索自己所学专业的国外一所著名大学,它的相应专业设置情况,教学安排、教学计划、课程开设情况,将自己喜爱的一门课程下载相关资源(如教学大纲、教案、课件、参考资料等等)。要求:都要写出使用的检索工具、准确的检索表达式、检索结果的主要条款。,