1、基于科技文献资源的跨语言信息检索系统研究 (张金柱(中国科学技术信息研究所 北京 100038)摘要 分析跨语言信息检索的现状,介绍和描述跨语言信息检索的主要问题,并针对万方数据和 NSTL 的现有资源,构建出基于科技文献的跨语言信息检索原型系统,此原型系统通过字典查询得到检索词翻译,应用 Google 在线翻译进行标题、摘要翻译,并预留中科院自动化所提供的翻译引擎扩展。跨语言信息检索强调检索结果翻译的可读性,帮助用户理解基本大意,不刻意追求准确性,力求在应用过程中促进机器翻译技术的进步和发展,辅助科研。关键词 跨语言信息检索,科技文献资源,可读性,跨库分类号 TP311 TP18The Re
2、search of Cross-Language Information Retrieval Based onScientific and Technical Literature ResourcesZhang Jinzhu(Institute of Scientific and Technical Information of China, BeiJing 100038,China)Abstract This paper analyse the status of Cross-Language Information Retrieval(CLIR) and describe the main
3、 issues about CLIR. We implement a CLIR protype system based on Scientific and Technical Literature Resources of Wanfang and NSTL.The system gets the keyword translation by querying dictionaries and uses Google translator to do title and abstract translation, it also reserves extension for the trans
4、lation engin of Institute of Automation Chinese Academy of Science.CLIR emphasizes the readability of search results but not accuracy which helps users understand the main ideas and improve the development of machine translation in application for research.Keywords Cross-Language Information Retriev
5、al, Scientific and Technical Literature Resources, readability, cross database1.引言随着互联网在全世界范围内的普及,网络信息和用户数量呈指数级增长,据调研公司Global Reach统计,2001年来自美国的站点占全球站点总数的47%,德国占5%,日本占4%,2000年,英文用户占上网用户总数的52%,中文占5%,西班牙文占5%,而到了2005年,这一比例分别变为32%,21%和8% 1。为解决从海本文系科技部国家支撑计划项目(课题编号:2006BAH03B02)“科技文献信息服务系统关键技术研究及应用示范”和(项
6、目号:2006BAH03B06) “科技文献信息服务系统应用示范”课题成果之一量信息中查找所需信息的问题,人们发展了信息检索技术。初期这个领域的研究者针对各自的母语或者网络上的主流语言(源语言,source language)提出了各种信息检索方法,目前信息检索技术已经较好地解决单一语言的信息获取问题,其代表性技术搜索引擎已经成为互联网的主流应用。但随着不同母语的人们交往日益密切,信息获取需求呈现国际化的特点,即人们迫切希望只需提交一种语言构造的查询,就能获得与此相关的多种语言(目标语言,target language)的信息,在科学研究、数字图书馆等领域,这种需求更为迫切。如果用户掌握多种语
7、言,那么最直接的方法是用每一种语言构造查询提交给相应的搜索引擎查找相关信息,然后人工把所有的结果汇总整理,这种方法无疑加重了用户的使用负担,浪费了很多时间,而且也不适用于没有掌握多种语言的用户,因此跨语言信息检索(Cross Language Information Retrieval,CLIR)的研究应运而生,并受到越来越多的关注,它提供基于一种自然语言构造的查询搜索任意语言文档的方法,实现了一种语言描述的用户查询与不同语言书写的文本之间的匹配问题,跨越了语言界限,在源语言与目标语言之间建立沟通桥梁。上述为信息检索和查询翻译问题 2。那么另外一个问题是,即使用户的查询被正确翻译到目标语言的查
8、询,用户是否能无障碍的阅读返回的目标语言文本呢,或者说能够简单的了解文章的大概意思。针对这种情况,有必要对返回的目标语言文本以用户的查询语言进行展示,即对目标语言文本进行机器翻译,从而以源语言揭示其表达的意思,反映文章大意,此处的翻译不要求精确翻译,而是使其有一定的可读性,帮助用户理解基本大意,帮助用户初步判定此文章是否为自己所需要,并同时提供源语言文本进行对照。以上是目标语言文本的机器翻译问题。因此,跨语言信息检索与信息检索、机器翻译两项技术有着天然的紧密联系,很多跨语言检索方法都要用到不同形式的翻译技术。通常比较简单的方法就是直接查词典,因此词典构造和查询方法就成为这一类方法的重要研究内容
9、。也有一些跨语言检索方法直接利用机器翻译系统进行翻译,本文综合运用这两种方法,强调机器翻译的可读性,不是其准确性,力求在应用过程中促进机器翻译技术的进步和发展,辅助科研。2.跨语言检索国内外现状跨语言信息检索的概念,学术界普遍认为是在20世纪60年代末70年代初,由康奈尔大学的Saltons首次提出的。他利用手工编制的英语-德语双语词表,进行了跨语言信息检索的尝试;1973年,他又编制了英语-法语词表,并对CLIR的效率进行了评价 3。经过30余年的探索和实践,跨语言信息检索取得了很大进展,尤其是德、法、意等欧洲语种的跨语言检索,而汉英跨语言检索的研究,尚处于起步阶段 4。目前,国外在CLIR
10、领域无论是理论层面还是实际应用层面都已有了显著的进展,已经涌现出很多CLIR系统,如一些示范系统:Aport系统、Arctos系统、Eric系统、Mulinex系统、Mudial系统等;还有一些投入实用的商业系统,如Cindor系统、Rotondo系统、Text-Finder系统等;Google也推出了跨语言检索系统 5,本文所述系统借鉴了此系统,同时也有改进,本系统通过对不同语言的数据源进行同时检索,返回多种语言检索结果的并集;并可自定义更多的数据和翻译软件。例如,当您检索“太阳能”的相应英文结果时,Google只返回英文相应结果的中文翻译,而并没有到中文数据源中检索并进行结果合并,如果能对
11、多种数据源进行检索会更加完善。国内近些年在跨语言信息检索和机器翻译技术的研究探索上也取得了一定的成果,但是还没有成形的商业应用,其主要原因在于商业应用过于注重检索结果机器翻译的准确性,在当前对自然语言处理的研究和技术实力前提下,想达到较高的准确性有很大的难度,可能还需要很长的一段时间要走。如何在准确性并不高,但能保证一定的可读性前提下使跨语言信息检索技术能够广泛使用和推广应该是更为紧迫的任务,使得在应用中推动机器翻译技术更好的发展。如果非要等到机器翻译技术成熟,准确率很高,恐怕很长时间内跨语言检索会停步不前,也会抑制机器翻译技术的深入研究。3.基于科技文献资源的跨语言信息检索图书情报领域有丰富
12、的科技文献信息资源,如万方数据和国家科技图书文献中心拥有的海量文献资源,期刊、学位、会议、法规、成果、专利、标准、报纸、企业、产品多种文献一应俱全,用户通过检索找到自己所需的资源更好的服务于自己的研究。这些资源不仅包括本土资源,用以了解我们的发展现状,找到突破点;也包括国外资源,了解国外的研究热点和发展趋势,用以比较或借鉴,开拓自己的思路,放眼于全球。然而,虽然图书情报领域收集了国内外海量资源,但真正使用的很大部分还是国内资源,由于语言障碍,国外的很多优秀资源没有得到使用。主要原因在于图书情报行业大多数的检索系统只提供检索结果语言与检索词语言一致的结果,如果需要了解国外资源,便需要了解、掌握多
13、个国家的语言,这对于一般研究者来说是很困难的,也是不必要的,而且很多专业词汇和短语也不是经常用到的,这就更增加了检索国外资源的难度。因此,图书情报领域迫切需要跨语言检索帮助科研人员检索其需要的资源,更好的了解和掌握国际形势,同时辅以机器翻译的技术针对性的对检索结果中某些文章进行翻译,帮助其了解大意,辅助阅读,更快、更好的进行科研。3.1问题分析图1为整个跨语言检索系统的框架图,系统的描述了基于科技文献资源的跨语言信息检索系统的整体运行流程。用户用户界面中文关键词预处理关键词翻译输入查询中文关键词多语言搜索引擎已扩展的查询中文查询英文查询俄文查询日文查询中文数据库日文数据库英文数据库俄文数据库机
14、器翻译英文结果日文结果俄文结果中文结果结果合并结果列表图 1 系统框架图通过对图1的分析,主要涉及两个方面的问题:跨库和跨语言。跨库是指对多个分布式数据库进行检索,图1中的“多语言搜索引擎” ,包括各种语种的数据源,且数据源可能是分布式的,此处主要包括万方和NSTL,分别为中文和英文数据源,以后还可以添加更多的数据源,使其有良好的扩展性;跨语言特指关键词翻译和句子翻译技术,关键词翻译主要用于查询翻译部分,句子翻译用于对检索结果的题名、摘要进行翻译,也可以针对性的对全文进行翻译。本文所述系统主要基于以下几部分资源构建:1)数据源:万方数据和国家科技图书文献中心提供的日趋完善的文献保障和服务系统建
15、设为我们搭建CLIR系统原型提供了强大的信息内容和接口方面的支撑。2)机器翻译:a.中科院自动化所提供机器翻译系统,在2007 IWSLT 国际翻译评测中汉英翻译系统的人工评测结果名列第一,自动打分为BLEU 0.3648;在2008 IWSLT国际翻译评测中汉英翻译系统的人工评测结果再次名列第一,英汉系统名列第二,自动打分结果为汉英BLEU 48.44,英汉BLEU51.22。其主要思想为通过对多个翻译引擎翻译结果的比较返回翻译最好的一个,如图2所示:图 2 中科院自动化所机器翻译原理图b.当前网络上已有一些开放接口的成熟翻译引擎,这些引擎可以用作跨语言检索系统的构件之一,这些翻译引擎中开放
16、程度最好的为Goolge在线翻译引擎,其提供了基于各种语言(java,c+,python,javascript等)的api接口,方便用户在自己的网站上进行调用。本文所用的Google语言API以ajax方式提供 6,可以在用户的客户端进行翻译工作;同时还有其它一些翻译引擎可以进行尝试调用,如Yahoo的babelfish 7等。3)词典:万方数据有一部已加工的带有领域信息的汉英-英汉双语科技词典,同时提供了一部分双语对照主题词表 8供使用,这些都可以作为翻译用户查询的工具支撑。本系统在进行原型系统时,使用Google在线翻译进行。3.2 跨库系统采用中间件技术,对来自用户的查询请求,分解成对不
17、同原始数据库的独立访问请求,通过标准(ODBC、OLE、JDBC和ADO.NET)或非标准的数据访问接口(API)对原始数据库进行实时访问并将结果整合后通过发布系统(或直接)返回给用户。这种方式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映;原文获取可以直接通过中间件获得从而省去原文数据库的原文发布服务;但应用局限于原始数据库必须提供访问接口,而且由于各数据库的速度问题而影响到用户得到结果的时间。另外中间件的开发和获取各数据库后的数据整合策略和技术需要合理规划。此处的跨库即要集成各个语种的数据源,对各个异构数据库进行统一检索,现在有一部分电子资源或搜索引擎提供相开放的 AP
18、I 接口,如可利用 Google 作为一种数据源作为万方和国家科技图书文献中心数据源的补充。图 3 为跨语言检索原型系统主界面,已提供三种检索源“Google 中国” 、“Google English”、 “万方数据” 。针对英汉数据源,万方数据和国家科技图书文献中心提供的数据已经基本满足科技文献检索需求,这两部分数据源可以通过内部的接口方式进行调用,而除了这两种数据源外,用户可能还会有经常用到的其它数据源,此时用户可能通过定制满足需求,通过特定参数的赋值写入配置文件,如果测试成功用户便可使用新的数据源。在加入更多的数据时,本系统的通用性还待改进。用户也可以自定义翻译软件,图 3 提供“Goo
19、gle 翻译”和“Yahoo 翻译”两种,如果有更合适的翻译软件,用户可以如配置数据源类似的方式配置。中科院自动化所提供的翻译软件将来也会加入到列表供用户选择,并且将是主要的翻译引擎。图 3 跨语言检索原型系统检索主界面3.3 跨语言跨语言涉及到的问题主要为机器翻译问题,在此把问题分为两方面:(1)查询翻译,目前大部分系统采用的做法还是词典查询,这是最普遍的用法,也就是将源语言的查询语句翻译成目标语言,再到目标语言的语料库中去查找相关的文本。本系统利用3.1中提到多种词表资源可较好的解决这个问题。(2)目标文本的翻译,由于查询者可能只懂源语言,所以对于查询到的目标语言文本需要翻译成源语言,这种
20、翻译可能是全文翻译也可能是对文本的标题、摘要进行翻译,本文介绍的系统为翻译标题和摘要内容,如图4所示, “来源:万方”的结果为中文库中检索得到, “来源:Googel English”的结果为英文库中检索得到,并已把标题和摘要以中文形式展示。用户如果需要全文翻译,可再单独进行。理论上说,我们也可以在检索之前就将所有的目标语言文本都翻译成源语言,直接用源语言的查询语句进行检索,这样就不需要进行查询语句的翻译了。当然,由于这样做代价太高现在实际上很少有人这么做。由于效率原因,目前主流的做法还是对查询进行翻译。显而易见,在跨语言检索中查询翻译结果的好坏实际上对检索的效果起到了非常重要的作用。近年来,
21、将统计机器翻译的研究成果应用于跨语言检索必将引起人们更多的重视,并取得了重大的突破,在一些主要的国际机器翻译评测中,采用传统的基于规则的机器翻译方法的系统的性能已被目前主流的统计机器翻译方法全面超越 9。本系统后续要采用的中科院自动化所提供的翻译引擎即是一种统计机器翻译引擎。图 4 检索结果页面4.意义和未来发展到目前为止,基本的机器翻译技术已经有了,虽然翻译结果的准备性并不高,但已经有一定的可读性,并可辅助使用者了解大意,关键在于还没有一个大的商业性的网络搜索引擎采用这些技术来真正地提供此类服务,尽管社会许多领域有这种应用需求,市场潜力很大,但现实中系统仍无法满足各类用户的需要,市场上的CL
22、IR系统功能往往不完备,可以处理的语言类型有限,呈现给用户的检索结果也不友好,并且只能提供文本检索,跨语言的多媒体检索还没有出现。根据欧盟跨语言检索评比组织CLEF(Cross-Language Evaluation Forum)对最近几年参赛的跨语言检索系统特点的分析,以及自己对跨语言检索的思考,目前跨语言检索的动向和未来发展方向可能是 10,11,12:1) 尽快搭建满足多种需求的商业性的跨语言搜索引擎,满足各方面对跨语言的需求,在翻译结果有一定可读性的前提下辅助使用者的工作和学习,在应用中推动机器翻译技术不断发展,让更多人了解此技术,刺激需求,使跨语言检索有更高的商业价值,使其为研究转化
23、为应用铺平道路。2) 不断涉足新的语言种类,双语言信息检索中人们开始挑战难处理的语言对(Inconvenient Language Pairs) ,多语言检索中包括的语言种类增多,2002年是5种,2003年则为8种语言。3) 多种方法结合的效果要优于单种方法。该领域一个很明显的趋势是越来越多的研究人员开始考虑结合多种现有手段的综合方法,这些研究将会成为跨语言检索的研究热点。4) 结合语义分析提高查询精确度。可以将跨语言检索看作是一般检索中词语扩展的问题,即如何检索那些并未包含在检索式中的关键词,实际上是相关的文档。这实际上又是语言学上的释义问题,因此,本质上又是意义或概念结构的问题。对这个问
24、题,理论上和技术上的探索都是重要和有意义的, 。从技术上,建立大规模的双语或多语文本语料库并一开发相关工具,探索多种语言词语的对应和采用中间语言进行表达;理论上探索建立更为通用的概念体系结构,如WordNet那样的语言本体。把理论和技术相结合,可能是解决信息检索问题的根本出路。5) 检索结果的合并技术仍然是讨论的热点,多数系统只是简单的合并策略。参考文献:1 Miguel E. Ruiz. Cross Language Information Retrieval(CLIR). http:/informatics.buffalo.edu/faculty/ruiz/teaching/Seminar
25、s/Cross-Language_information_Retrieval.Ppt2 骆卫华. 跨语言信息检索方法概述J.数字图书馆论坛,2006(9):1-23 侯艳飞.跨语言信息检索研究D.北京:北京大学,2003:1-24 Turid Hedlund et al.Dictionary-based Cross Language Information Retrieval:Learning Experiences from CLEF 2000-2002J.Information Retrieval,2004(7):99-1195 经过翻译的搜索结果EB/OL. http:/ Google
26、Ajax语言APIEB/OL.http:/ Yahoo Bable FishEB/OL.http:/ 中国科学技术信息研究所主题词表EB/OL.http:/168.160.18.253/thesaurus/index.jsp9 刘群,骆卫华. 跨语言检索中机器翻译技术的应用和进展J. 数字图书馆论坛,2006(9):12-1310 Cross-Language Evaluation Forum.Workshop(4th:2003:Trondheim,Norway).Comparative evaluation of multilingual information access systems:4th Workshop of the Cross-Language Evaluation ForumM.Springer,2004:8-35.11 Forum.Workshop(3rd:2002:Rome,Italy).Advances in Cross-Language Information Retrieval:3rd Workshop of the Cross-Language Evaluation ForumM.Springer,2003:9-27.12 王妙娅,赖茂生。跨语言信息检索中的询问翻译方法及其研究进展J.现代图书情报技术,2005(4):373-415