1、基于 NLU 的智能搜索和信息提取技术的研究?14?计算机应用研究 2004 年基于 NLU 的智能搜索和信息提取技术的研究*郭庆琳,樊孝忠(1.北京理工大学计算机系,北京 100081;2.华北电力大学计算机系 ,北京 102206)摘要:讨论了自然语言理解应用于智能搜索和信息提取的若干问题 ,阐述了标注,完善基于词典的知识库的处理手段,特别是语料库语言学在这些环节的应用情况.同时,对中文信息提取涉及的技术难点和信息提取的实现过程也作了较为详尽的论述.关键词:智能搜索;信息提取;标注中图法分类号:TP391 文献标识码:A 文章编号:1001.3695(21104)02-0014-03Res
2、earchabouttheTechnologyofIntelligentSearchingandInformationExtractionBasedonNaturallanguageUnderstandingGUOQms4in.,FANXiao-zhonsI(1.A.ofCompactSc/ence,/nst/tuteofTedmo/ogy,100081,Ch/na;2.A.ofCompactSc/ence,NorthCh/naE/eaPowerUn/-,/ty,102206,Odaa)A 嘲:Thisthesisdissertatedseveralproblemsabouttheapplic
3、ationofnatural1a】1guage0oessinginintelligentse 衄hiIlgandinfor-I 瑚0nxlraction,anddissertatedthefonowiquestionsofbelinginfommtionandperfectingthetechnologyofrepositorybasedondie-tionary,especiallytheproblemsabouttheapplicationofCorpusLinguisticsinthepID)髑8ing.Atthe 姗 time,thisthesisdissertateddetailed
4、lythetechnologynodusandtherealizationofinformationvxlraction.1:IntelligentSesl;InformationExtraction;IhnsInfomtion1 引言随着现代计算机技术,特别是海量数据存储与传输技术的发展,各种电子文本形式的情报源所提供的信息量正在以惊人的速度递增.而在浩如烟海的电子信息中搜索自己需要的有用信息其困难程度可想而知.解决这一问题需要对信息进行有效的智能整合,这就涉及到自然语言理解技术.从 20 世纪 60 年代起,计算机的自然语言理解问题就一直是计算机科学家和语言学家面对的一个巨大挑战.经过长期
5、的研究,人们逐渐认识到目前全面解决计算机的自然语言理解尚有非常大的难度,但在个别的应用系统中形成突破却具有较大的可能性.例如,基于自然语言理解的智能搜索和信息提取系统在我们的实验中取得了较好的效果.下面就论述基于自然语言理解的智能搜索和信息提取问题.2 自然语言处理与理解自然语言理解就是研究如何能让计算机理解并生成人们 13 常所使用的语言,目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传收稿日期:2O03.01.13;修返日期:2003.07.28基金项目:国家重点基础研究发展规划“973“资助项目递与认知活动.自然语言处理与理解的核心技术是语言分析技术,即将句子变换
6、成由词语及其抽象形式构成的用某种数据结构(句法树,复杂特征集或语义网络)表示的内部形式.语言分析技术可以分为基于规则与基于统计数据两大类.这两类技术曾有过一番孰优孰劣的竞争.目前学术界已普遍认为应当综合应用这两类技术_lJ. 建立一个自然语言理解系统,可以是一个纯粹的实验性模型,也可以是一个以直接应用为目的的模型 J.迄今为止的自然语言理解模型,大都以直接应用为目标:或应用于机器翻译,或应用于自动应答,或应用于 MIS 专家系统,等等.尽管这些模型所采用的语法框架,算法等都各有特点,但在解决自然语言理解的基本策略上却是相当一致的,即都是针对某一具体的应用领域,充分利用具体领域的各种可理解因素,
7、将其形式化,然后建成的.这种具体领域不仅规定了可用于推理的背景知识,也规定了可能运用的词汇子集和短语,句型子集.与绝大多数自然语言理解模型不同,自动识别模型不是针对某一具体的应用领域的,而是面向人工智能所期望解决的一般的自然语言理解问题的.所谓一般的自然语言理解问题,就是让计算机具备理解人的一般话语的能力,也就是说要在计算机上建立起一个分析或生成一般话语所必备的知识库.这种策略的优点是,它有可能导致最终建成一个可供一切可能的语言分析或生成所需的自然语言理解知识库.智能搜索和信息提第 2 期郭庆琳等:基于 NLU 的智能搜索和信息提取技术的研究?l5?取就应采用这一策略,因为它们所处理的信息是广
8、泛的,普遍的,这要求智能搜索和信息提取必须是智能的.3 智能搜索搜索是文献量增长到一定程度后的必然要求,目的在于跟踪相关文献同时尽量减少阅读的负担.搜索可抽象成一个过滤器模型,在过滤器内部完成了标注和匹配两个工作.输入过滤器的是原始文献记录,一个控制端子反映用户的搜索要求,而输出的则是从原始记录中筛选出来的满足搜索要求的,甚至是按相关性大小排序后的检出记录.目前实际使用中的情报搜索系统大多数是以处理文献的标志为主,如标题,作者,出版物,主题词,索引号等着录事项.而智能搜索则可以基于语义搜索,搜索对象可为一句话甚至大规模真实文本.智能搜索的对象是自然语言文本.下面论述在自然语言处理技术应用中产生
9、的具体问题.3.1 概念标注与分析标注是为了产生文本的描述,搜索的真正对象是标注的结果.标注用词可以分成主题词和自由词两种.为了提高查全率要求标注结果要具有统一的形式,能够全面概括文献的特点;为了提高查准率要求不同文献的标注结果要具有互异性,描述精确.以往常采用的手工标注方法主要存在的缺点是工作量大,效率低,一致性差.另外使用主题词表时遇到的问题主要有词表不完备,更新不及时,而且规模过于庞大.使用自由词便于实现标注的自动化 j.从效率上考虑智能搜索必须采用自由词自动标注.这里的自由词是概念自由词,即概念标注.语言的理解过程就是把语句映射到概念基的过程.单词只是概念的符号,代表着一组可能知道的,
10、用于该单词所表述的概念的所有特征.理解一个句子的关键在于提取句子的概念和概念结构 L4j.所以我们要从概念的角度进行标注.语言理解系统的核心部分是语言分析器,主要用于概念分析,故称其为概念分析器.概念分析器由两部分组成,即词典和监视程序.词典存放着很多概念词,成为分析工作的知识源;监视程序完成分析工作.概念分析的基本机制是预期(Expectations).预期是一种即将实现的情景的描述,以请求的形式存放在词典里.3.2 智能搜索的实现通常用户发出的自然语言搜索要求是零散的语句,可以适当限制使用的句式,以提高分析的正确率.假设用户提出如下的要求:文章应该详细介绍计算机的组成结构和工作原理.当这样
11、的搜索要求输入系统后,一个自然语言理解前端负责分析其内容.这个前端实际就是一个句法一语义分析器,句法分析部分负责生成句法树,可以采用功能合一语法.语义分析是根据句法树建立以动词为核心的语义框架,框架的语义格由名词性短语填充.在分析过程中还要返回输入中可能出现的错误并通过人机交互纠正.接下来由智能搜索系统提取框架中的名词性短语,将这些短语作为关键词,在经过标注的文献库中搜索目标记录.在建立自然语言接口的智能搜索系统时,应充分利用现有的主题表,序词表,后控词表等,建立标准化的机读格式版,用于作为自然语言的知识库,文献库,语法库,规则库的基础.智能搜索系统工作在这样一项假设之上:任意两个文档 F1
12、和,若两者标注的结果(记作 L(F1)和 L()完全一致,那么它们所表达的内容(记作 M(F1)和 M(F2)也认为是相同的,即 M(F1)=M(F2)当且仅当L(F1)=L(F2).匹配过程将文档的标注结果逐一比较,如果匹配算法采用布尔逻辑,则匹配的结果或是记录与搜索要求相符或是不符,前者作为检出记录输出,后者被过滤掉.当采用统计法标注时,每个标注出的关键词都对应于一个出现频度.根据概率理论可以定义一种相关测度,表示文档与搜索要求之间的相关性大小,标注结果与搜索要求相近且关键词使用频度高的文档相关性就大.根据预期的常识性的和本体论层次知识对用户的搜索要求进行相关性联想,提供引导系统进行下一步
13、搜索的线索.这样一步一步地在与预期的交互过程中实现对搜索的智能导航.这种逐步求精的策略解决了信息检索中“精确表达 “的难题.采取一种智能信息的先推后拉技术,即根据用户的具体情况将相应的信息推送给用户,用户想要得到更详尽的信息可以通过搜索系统进行进一步的查找.为此,必须尽早建立专业领域模型库,组织专门人员进行领域知识的研究.尤其是对有些精深的领域或典型用户,应建立用户档案,详细记录其检索需求和查询过程.必要时可进行一对一服务和跟踪服务.由于自然语言中存在不确定性,因此采用传统的精确推理来处理语言表达中的模糊性就会遇到困难.因此我们采用模糊逻辑的推理方法.使用模糊逻辑中的运算对概念间的关联性求值.
14、在此,模糊与或图为我们提供了一个较好的推理框架.我们将与或图的节点视为语言概念(叶节点视为关键词),节点间的与或连接弧视为概念间的关联,用一个0,1间的模糊值表示其关联程度,将规则库中的模糊规则转换为模糊与或图,就可进行概念间的模糊推理.智能搜索的过程是:搜索引擎收到用户的提问后,利用禁用词表从查询中剔除诸如副词,介词,代词等没有主题意义的词汇,然后将剩下的词进行概念标注与分析,再利用领域词典和知识库等进行概念理解基础上的搜索与匹配.4 信息提取信息提取是信息搜索的更进一步.它是一门应用技术,研究指定信息的查找,理解和提取,并以适当的方式输出所指定的信息.它是多种基本的自然语言处理技术的综合应
15、用,具有广泛的应用领域.在信息化浪潮的推动下,西方发达国家都十分重视信息提取技术的研究和应用,把它列为与信息搜索,信息理解,文档归类和摘要,语音识别等并重的语言工程项目.由于信息提取是一门综合的技术,它需要比较深入的语言处理基本理论和技术作为支撑,并可进一步促进相关语言处理领域的发展,所以我们必须对其进行研究.?l6?计算机应用研究 2004 年4.1 信息提取的具体内涵信息提取(InformationExtraction)是从一段文本中提取指定的一类信息,并将其形成结构化的数据,然后填入一个数据库中供用户查询使用的过程_5J.例如,从一篇关于自然灾害的新闻报道中摘录出灾害的类型,时间,地点,
16、人员伤亡,经济损失,救援情况等;从产品发布的新闻语料中提取某类产品的质量信息,包括产品尺寸公差,形位公差,表面粗糙度筹信息.信息抽取的目标是把文本里包含的信息进行结构化处理,变成表格一样的组织形式.输入信息是原始文本,输出的是固定格式的信息点.信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起.这就是信息抽取的主要任务.信息以统一的形式集成在一起的好处是方便检查和比较.例如比较不同的招聘和商品信息.还有一个好处是能对数据作自动化处理,如用数据挖掘方法发现和解释数据模型.信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析.至于哪些信息是相关的,将由系统设计时
17、定下的领域范围而定.信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的.4.2 信息提取的技术难点信息抽取技术是针对结构文档,半结构文档,纯文档进行的知识抽取,去除文档中不需要的冗余信息,抽取出对我们有用的知识,并存入结构数据库中_6J.因此,信息抽取技术的核心是从文本中提取信息,如果对于文本中的关键句(中心句)能够使机器理解,则对于提高抽取的精度有很大的帮助.如上分析,将自然语言处理技术应用于信息抽取技术,将使信息抽取技术更加完善.因此,自然语言处理的难点成为信息抽取技术的难点.通过机器学习方法自动,半自动地获取相关信息,是信息抽取技术节省人力,减少手工标注巨大工作量的有效方法
18、_7J.但是,机器学习技术是相对难以掌握的技术,相关参数的设定需要通过大量的实验才可获得.同时,如何提高机器学习的执行速度和效率也是相对困难的技术难点.4.3 信息提取的实现制作一个规模适当,分级合理并可灵活配置的词典是建造中文信息提取系统的第一步.这里我们需要强调的是,在信息提取技术涉及的诸多因素中,机器词典的适用性是要求很高的.词典作为最重要的知识库,它的规模及其词汇知识的描述质量从根本上决定了信息提取效果的好坏.信息提取的目标是以表达某个事物的概念为基本单位的.而词是表达概念的基本单位,因而也是信息提取语言处理的最小单位_8.实践证明,现代汉语信息处理的关键问题在于对于名词和动词两类词的
19、语法,语义研究的深入.汉语信息提取的语言分析也应该以动词和名词作为重点.因此,用于信息提取的基于词典的知识库的主要内容应该是有关动词和名词的全面信息.信息提取实现的基础是语料库的建设,只有具备完备的专业领域语料库,信息提取技术才会有研究的基础,但是基于中文的专业语料库却很少.建立专业领域语料库是信息提取的重要工作.建立信息提取的规则库是信息提取的关键技术.规则库的建立分为手工建立,半自动建立,全自动建立.早期信息提取规则主要通过领域专家手工建立,但其有明显的缺点,首先领域专家很难找到,即使有领域专家,但规则库的手工建立的工作量也非常巨大,同时一旦规则发生变化,还得通过手工进行修改,规则库的可维
20、护性很差.半自动建立和全自动建立是通过机器学习方法由机器自动建立规则库,首先用手工的方法标注训练文本的提取规则,再通过机器学习算法学习提取规则.如果需要,可以进行人为修改.最后将学习到的提取规则应用到该领域的文本信息提取中.信息提取过程主要包括如下几个步骤:用一组信息模式描述感兴趣的信息.信息模式通常以表格的形式表示,其中有我们定义的一项关键字.系统可以针对某一领域的信息特征预定义好一系列的信息模式,存放在模式库中供信息提取系统选用.对文本进行自然语言处理,包括概念标注与分析以及句法,语义分析等.这个过程需要合适的词典,构词规则库等知识库的支持.信息提取,即找出信息模式的各个部分.提取结果入库
21、或以自然语言的形式(包括表格)把提取结果呈现给用户.总之,智能搜索和信息提取是中文信息处理中的热门课题,而自然语言处理与理解技术是智能搜索和信息提取的核心,我们一定要深入研究和充分利用自然语言处理与理解技术.参考文献:1俞士汶.俞士汶教授谈自然语言处理技术J.微电脑世界周刊,2002,34(1):89.2傅承德.自然语言理解德方法与策略M.郑州:河南人民出版社,2001.185.3刘伟权,钟义信 .自然语言处理与全文情报检索J.情报理论与实践,1997,20(1):44.4姚天顺,等 .自然语言理解M.北京:清华大学出版社,20O2.8l,5孙斌.信息提取技术概述J.自然语言处理,2003,2
22、(1):34.6ChurchKW.MercerRL.IntroductiontotheSpecialIssueonComputationalLinguisticsUsingLargeCorporalJJ,Computatio-nalLinguistics,1993,19(1):1-24.L7JAijmerKAhenbergB.EnglishCorpusLinguisticsM.NewYork:LongmanInc.,1999.67.8LewsDD,JonesKS.NaturalLanguageProcessingforInformationRetrievalJ.CommunicationsoftheACM,2001,39(1):92101作者简介:郭庆琳(1973 一), 男,博士研究生,主要研究领域为自然语言处理与理解,智能人机接口技术;樊孝忠(1948 一),男,教授,博士生导师,主要研究领域为自然语言处理,自然语言理解,模式识别,人工智能,智能人机接口,多媒体数据压缩