1、第二章 网络资源检索技术,第一节 检索词技术 一、关键词技术虽然布尔操作符和其他的检索辅助符号(如双引号、file type等)也非常重要,但对于检索来说,最根本,也是最困难的,是使用什么样的关键词来构造检索提问。只有关键词的检索提问能够检索到很多结果,而没有关键词的检索提问即使包括再多的布尔和其他操作符也检索不到任何结果。从这个意思上说关键词是检索的灵魂丝毫不为过。虽然近年来自然语言检索和智能检索代理等领域的研究进展很快,但目前最成熟应用也最广泛的仍然是基于关键词的检索技术,所以要想真正提高自己的检索水准,必须从关键词开始。,一次检索就是寻找一个特定主题的信息的过程。下面的步骤将引导读者如何
2、把检索需求转换成具体的、确切的关键词或词组一正是通过它们才能检索到我们需要的信息。1、足够多的关键词是快速定位目标信息的关键构建检索时的5W1H:-第一个检索技巧 (1)What:要找的信息和主题是什么,可以从什么角度或是立场来切入,把相关的关键词或是词组都列出来。 (2)Who:是否涉及特定的群体或是个人?有特定的人名的话,应该把人名也列出来,并留意这个人名有没有不同的写法(译法)或是拼法? (3)Where:是否限于特定的国家或地区?中国内地?港澳台地区?美国?很多搜索引擎都可以按地区或国家限定查询范围。 (4)When:是否从特定的时间剖面来探讨?或特定时间点以后才有有事件或情况?,(5
3、)Why:这个主题有什么意义或影响?为什么会有这种现象发生? (6)How:是不是有特定的方法,有的话,也将其列为关键词,有时查询结果太多时,可以增加关键词来限定再查询。,2、检索时应当避免停用词和单独使用过于常用词-第二个检索技巧 问题:能不能直接将上面分5个方面列出的信息直接作为检索提问呢? 答案是否定的。 一个最明显的问题是常用词: 英文词,如and,aboutthe,of,a,in,as,if,not,why,never,before,it,etc. 汉语词,如“了”,“这”,“那”,“很”,“的”等等。检索工具忽略这些词,因为这类词过于常用了,信息价值很低,检索这些关键词不仅无助于缩
4、小查询范围,而且会大大降低搜索速度。除了停用词(stoplists)之外,还有一些所谓的vulgar words,意思是过于普通的词,虽然它们不属于停用词,但使用得实在过于广泛,以至于出现,在百万上千万的网页中,使得它们事实上不能被用来帮助找到什么有用的信息(除非和别的关键词一起使用),比如说“气温”,有无数个网站提供跟“气温”相关的信息,从地方天气预报到学术论文到气象学科普等等,所以使用更多的关键词或更明确的关键词来检索要比单纯检索“气温”好得多,例如设计一个类似“北京冬季气温零下”这类特殊的搜索关键词。 3、在检索提问时避免使用行为关键词,谨慎使用修饰词。-第3个检索技巧,经过分析以后,J
5、an初步确定了下面的关键词: bird、building、city、Spring、daylight 而很明显检索的主题在于bird。 4、截词检索和通配符-检索的第四个技巧一般来说,截词检索对于中文检索意义不大,西文检索时使用较多。bird与birds,可以使用bird*来进行检索。并不是所有的检索工具都支持截词检索,Google就不支持这种形式。 5、选定合适的关键词级别-检索时的第5个技巧上位词:指概念上外延更广的关键词,或者可以说每一个关键词所覆盖的信息范围都是它的上位词所覆盖信息范围的子集。,下位词:下位词则是指概念上内涵更窄的关键词。 6、使用一定数量的同义词参加检索,以覆盖目标信息
6、的范围-第六个检索技巧,7、尽量使用词组检索-第七个检索技巧关键词是检索的灵魂,对象词是关键词的重点和核心,而检索时最强有力的关键词则是词组词组检索强制检索结果必须与词组的形式完全一致(顺序和间隔都不变),这样对检索结果限制得更严,检准率也更高。 8、使用英文专业术语检索-第八个检索技巧尽量使用英文专业术语检索,这是提高搜索结果质量的重要途径。一项对6.5亿个Internet网页语言属性的调查表明,发现其中英文信息内容占了71%,而日文是6.82%,德文是5.08%,法文是1.75%,中文则为1.52%。,其实上面,Jan在列检索词时罗列了太多的无用词,例如building,daylight似
7、乎没有必要。我们可以更改一下: 第一、该鸟应为食肉类动物:可以定检索词为“猛禽”,英文为raptor,bird of prey。我们利用中文来进行检索; 第二、该鸟的体形:类似于乌鸦。鸦类在鸟类中体形较大,大致在5070厘米之间。可以利用50厘米来进行检索; 第三、该鸟的毛色:灰白相间; 第四、该鸟的喙:黄黑相间。 利用Google检索,找到“泡泡社区-逛中国濒危珍稀动物鸟类”,网址为http:/ 上面有各种鸟类的图片,可以确定所看到的鸟类应为“游隼”。 第五、利用“游隼*生活习性”来检索到以下网址: http:/ 野生动物保护论坛。,泡泡社区的图文: 游隼 多在水上捕食 别名 花梨鹰、鸭虎
8、学名 Falco peregrinus 英文名 peregrine falcon 隼科 Falconidae 分布 为新疆西部繁殖鸟;迁徙及越冬时遍及各地国家二级保护动物 中型猛禽。全长约40-48厘米。上体深蓝灰色,具黑褐色横斑,羽端白色,羽干纹黑色。头、颈部黑色,带蓝色光泽。飞羽黑褐色;尾羽蓝灰色,具黑色横斑。下体污白色,带淡棕色,具黑色羽干纹,至腹部以后渐转为长三角形横斑。嘴铅黑色。脚黄色。 栖息于开阔的农田、草地、河谷或山丘地区。单独生活,飞行迅捷。以鸭雁等为主要食物,也吃小型兽类。筑巢于悬岩峭壁的缝隙中,偶尔利用鸦、鹰等的旧巢。3月下旬开始产卵,每窝3-4枚,黄白色具红褐色及黄褐色斑
9、。雌雄共同孵卵,孵卵期28-29天,育雏期35-40天。,野生动物论坛图文: 隼科游隼 Falco peregrinus 游隼 学名:Falco peregrinus 物种命名人及年代:Tunstall,1771 英文名:Peregrine Falcon 中文别名:花梨鹰、青燕、鸭鹘、黑背花梨鹞 分类位置: 隼形目 Falconiformes 隼科 Falconidae 隼属 Falco 濒危信息: CITES:附录II IUCN:未列入 中国濒危动物红皮书等级:稀有 国家重点保护等级:2级 物种特征:游隼属于中型猛禽,在隼类中体形较大。体长为38一51厘米,体重647907克,翼展可达911
10、12厘米。翅长而尖,眼周为黄色,颊部有一条粗著的垂直向下的黑色髭纹,与其他隼类不同。头部至后颈为灰黑色,其余上体为蓝灰色,尾羽上具有数条黑色的横带。下体为白色,上胸部有黑色细斑点,下胸部至尾下覆羽密被黑色横斑虹膜暗褐色,眼睑和蜡膜黄色,嘴铅蓝灰色,基部黄色,嘴尖黑色,脚和趾橙黄色,爪黑色。,军队由于扼杀自由和抢劫,已经沦为一把双刃剑,对谁都没有安全感。 关键词拟定: 军队 army 扼杀自由 liberticide 双刃剑:double-edged sword 抢劫 由于同义词、近义词太多: 所以建议舍弃。由以上三个词已经可以构成,检索式: army* liberticide* double-
11、edged sword 在Google上检索,发现只有4个结果,没有一个是需要的。 army liberticide double-edged sword 在Google上检索,发现只有24个结果,其中:,应该可以确定就是这一篇。 打开页面以后发现。 这是雪莱的一首十四行诗。 如果对英国文学较熟悉的 话应该知道P.B.Shelley就 是雪莱。,如果不熟的话,可以利用”England in 1819” 译文 在Google上进行检索,可以得到24个检索结果,其中: 我第一次还打开了正方翻译论坛上面查良铮的译文,后来就再也打不开了。 所以只有换一下检索词:”England in 1819” 翻译
12、,可以得到92个检索结果。 在http:/ 上找到了译文。,England in 1819 1819年的英国An old, mad, blind, despised, and dying king, 一个老而疯、昏庸、可鄙,快死的王Princes, the dregs of their dull race, who flow 王侯们,那庸碌一族的渣滓,受着公众的轻蔑Through public scorn, mud from a muddy spring, 是污水捞出的泥浆Rulers who neither see, nor feel, nor know, 是既不见,也无惑,又无知的统治者。
13、But leech-like to their fainting country cling, 只知吸住垂危的国家,和水蛭一样,Till they drop, blind in blood, without a blow, 直到他们为血冲昏,不打便跌落,,A people starved and stabbed in the untilled field, 人民在荒废的田中挨饿,被钉戮,An army, which liberticide and prey 军队由于扼杀自由和抢劫,已经Makes as a two-edged sword to all who wield 成为两面锋刃的剑,对谁
14、都不保护,Golden and sanguine laws which tempt and slay; 漂亮而残忍的法律,是害人的陷井;Religion Christless, Godless a book sealed; 宗教而无基督一本闭紧的书;A Senate, Times worst statute unrepealed, 议会,把时间最坏的法令还不废除Are graves, from which a glorious Phantom may 呵,就从这一片坟墓里,光辉的幻影Burst, to illumine our tempestuous day. 或许跌出,把我们的风雨之日照明。
15、,第二节 网络资源基本检索技术,一、布尔逻辑检索布尔逻辑检索是信息检索技术中最成熟、最常用、最基本的一种。布尔逻辑运算有三种:逻辑与、逻辑或、逻辑非 1、逻辑与用AND(或 and)或 * 表示,是一种用于交叉概念和限定关系的组配。其作用是缩小检索范围,提高查准率。A and B(A*B),表示被检索的文献记录必须同时包含A和B才算命中。,2、逻辑或用OR(或 or)或+表示,是一种并列关系的组配,其作用是扩大检索范围,防止漏检,提高查全率。A or B(A+B),表示一篇文献记录中只要包含A和B任何一个即算命中。也有些检索系统用“A空格B”的形式来表示逻辑或。 3、逻辑非用NOT(或 not
16、)或 表示,是一种排斥关系的组配,用于从原来的检索范围中排除掉不需要的或影响检索结果的概念。其作用是缩小主题内容,减少文献量,提高查准率。A not B(A-B),表示含有A的文献中去掉也含有B的记录。逻辑运算符的优先顺序是:NOT、AND、OR。,A*B,A+B,A-B,二、截词检索是针对近义词、同一词根、单复数等词汇变化,为防止漏检现象,提高查全率的一种常用检索技术。其检索表达式中使用截词符号来表示检索词的某一部分允许有一定的词形变化,即检索词不变的部分加上截词符号所代表的任何变化形式所构成的词汇都是合法检索词。检索结果中只要包括其中任何一个都能满足检索要求:如comput*可以表示com
17、puter、computer、computing。截词检索可以分为前端截词、中间截词和后端截词三种,较常用是的后端截词。绝大多数检索系统都支持截词功能,但截词检索没有统一的标准。较常用的有:,* 代表任意字符串 ? 代表任意字符(一个) $ 表示零个或任意个字母,用于词首,检索出与该词根具有同样语义的词。 例如$manage可以检索出managers、management等。 # 多用于网页技术,表示#以前的部分可以访问,#以后的部分不能访问。 例如:http:/202.114.181.3#/bgjj/tsggki.asp 中,运行后出现的页面是http:/202.114.181.3的页面。 三、限制检索对检索范围(如时间、国别、语种、文献类型以及特定检索点等)进行约束或压缩的一种检索限定。限定字符的输入格式为:检索词 within 字段代码。EI Compendex Web 高级检索模式的可检索字段、字段代码和使用实例见下表:,四、位置检索通过位置算符来确定原文当中词与词之间的特定的位置关系的一种检索技术。它的作用是弥补检索表达式难以用布尔逻辑运算符来准确表达提问要求的缺陷,避免误检,提高查准率。多用于联机检索系统,下面以Dialog系统为例 ,见右边的表:,