1、No.95, Zhongguancun East RoadBeijing 100080, Chinahttp:/Tel. No.: +86-10-6255 4263第四章语料库与语言知识库NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR4.1 语料库处理模块输入输出数据库或知识库大规模语言数据:机器学习知识获取NLP中知识库包括:词汇语义库规则库常识库等等NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR4.1 语料库定义语料库语料库(corpus)就是存放语言材料的仓库(语言数据库)。基于语料库进行语言学研究语料库语言学语料库语言学(co
2、rpus linguistics)NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR4.2 语料库语言学定义根据篇章材料对语言的研究称为语料库语言学。Aijmer, 1991基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。McEnery, 1996以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。Crystal, 1991NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR4.2 语料库语言学两种解释:不是新术语:利用语料库对语言的某个方面研究。是新术语:对现行语言学理论批评,提出新理论。一般指前者NLPR,
3、 CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR4.2 语料库语言学“语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。”J. Thomas 等人为祝贺语料库语言学的主要奠基人和倡导者G. Leech 六十岁生日而出版的语料库语言学研究论文集的开场白丁信善,1998。NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR语料库语言学研究的内容:语料库的建设与编纂语料库的加工和管理技术语言研究中语料库的使用语料库语言学在计算语言学中的应用4.2 语料库语言学NLPR, CAS-IA
4、 2006-3-21宗成庆:自然语言理解讲义NLPR三个阶段20世纪50年代中期:早期的语料库语言学语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究4.3 语料库技术的发展NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR 195720世纪80年代初期:沉寂时期 1957年Chomsky 的句法理论及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。 Chomsky 及其转换生成语法学派批判早期的语料库研究方法:基于语料库的研究方法有误语料的不充分性4.3 语料库技术的发展NLPR, CAS-IA 2006-3-21宗成庆:自然语
5、言理解讲义NLPR 20世纪80年代:复苏与发展时期第二代语料库相继建成:1983年英国Lancaster大学建成Lancaster-Oslo / Bergen Corpus (LOB语料库): 研究英国英语,500语篇,每个语篇约2000词。法国国家科学研究中心与美国芝加哥大学联合建成法语语料库(Tremor de la Language Francaise, TLF语料库):2000书面法语文本,1.5亿词。4.3 语料库技术的发展NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR芬兰赫尔辛基大学建成历史英语语料库(The Helsinki Corpus of H
6、istorical English):850-1720年, 1600万词。1988年伦敦大学建成国际英语语料库(The International Corpus of English, ICE): 语料来自所有英语国家,各100万词,19901993年,口语和书面语各一半,18岁以上接受英语教育的成人。4.3 语料库技术的发展NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR基于语料库的研究项目增多1981年至1991年的11年时间里,大约有480个语料研究项目得到资助,而在1959年至1980年20多年的时间里,只有140个基于语料的研究项目。4.3 语料库技术的发
7、展NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR语料库技术复苏的原因1)计算机的迅速发展;2)转换生成语言学派对语料库语言学的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)。4.3 语料库技术的发展NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR汉语现代文学作品语料库(1979年,武汉大学,527万字)现代汉语语料库(1983年,北航,2000万字)中学语文教材语料库(1983年, 北师大,106万字)现代汉语词频统计语料库(1983年,北京语言学院,182万字)4.4 国内语料库研究状
8、况NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR1991年,中国国家语言文字工作委员会开始建立国家级大型汉语语料库,以推进汉语的词法、句法、语义和语用研究,其计划规模将达7000万汉字。北京大学计算语言学研究所从1992年开始现代汉语语料库的多级加工,在语料库建设方面成绩卓著,先后建成2600万字的1998年人民日报标注语料库、2000万字汉字,1000多万英语单词的篇章级英汉对照双语语料库、以及8000万字篇章级信息科学与技术领域的语料库等。4.4 国内语料库研究状况NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR清华大学于1998年
9、建立了1亿汉字的语料库,着重研究歧义切分问题。山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院自动化研究所和香港城市大学、台湾中央研究院等相当一批大学和研究机构都对汉语语料库的建设做出了重要贡献。新疆大学、新疆师范大学、内蒙古大学、中国社科院民族研究所和西北民族大学等院所研究和开发我国少数民族语言的语料库。4.4 国内语料库研究状况NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR按内容构成和目的划分异质的(heterogeneous)黄昌宁,2002最简单的语料收集方法,没有事先规定和选材原则同质的(homogeneous)与“异质”正好相反,比如美国的
10、TIPSTER 项目只收集军事方面的文本。4.5 语料库的类型NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR系统的(Systematic)充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。专用的(specialized)如:北美的人文科学语料库4.5 语料库的类型NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR按语言种类划分单语的(已切分的)具有词性标注句法结构信息标注(树库)语义信息标注双语的或多语的篇章对齐/ 句子对齐/ 结构对齐4.5 语料库的类型两个术语:生语料熟语料NLPR, CAS-IA 2006-3-2
11、1宗成庆:自然语言理解讲义NLPR平衡语料库与平行语料库平衡语料库平衡语料库着重考虑语料的代表性与平衡性。语料采集的七项原则:语料的真实性、语料的可靠性、语料的科学性、语料的代表性、语料的权威性、语料的分布性和语料的流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。张普, 20034.5 语料库的类型NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR问题问题:(1)各个分布点所选取的语料量的科学依据是什么?(2)使用度是否已经完全真实地反映了语言的使用情况?4.5 语料库的类型NLPR, CAS-IA 2006-3-21宗成庆:自然
12、语言理解讲义NLPR平行语料库两种含义:一种是指在同一种语言的语料上的平行,例如正在建立的“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。4.5 语料库的类型NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库C: 早晨好!E: Good morning.C: 您能给我一杯咖啡吗?
13、E: Could you give me a cup of coffee?4.5 语料库的类型C: 早晨1 好2 !3E: Good2 morning1 .3NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR共时语料库与历时语料库所谓共时语料库是为了对语言进行共时研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。所谓历时语料库是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。4.5 语料库的类型NLPR, CAS-IA 2006-3-21宗成
14、庆:自然语言理解讲义NLPR判断历时语料库的4条原则张普,2003是否动态语料库:语料库必须是开放的、动态的。语料库的文本是否具有量化的流通度属性:所有的语料都应来源于大众传媒,都具有采用不同计算方法的与传媒特色相应的流通度属性。其量化的属性值也是动态的。4.5 语料库的类型NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR语料库的深加工是否基于动态的加工方法:随着语料的动态采集,语料也应进行动态地加工。是否取得动态的加工结果:语料的加工结果也应是动态的和历时的。4.5 语料库的类型NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR语料库设计
15、需要考虑的问题静态与动态语料库建设的另一种主张是动态的,或监督语料库(monitor corpus):动态文本集,数据的收集通常是随遇的,而不是平衡的。4.6 语料库建设中的问题NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR代表性和平衡性一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。Leech, 1991如何达到不同部分之间的平衡?4.6 语料库建设中的问题NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR规模第一代语料库100万词次1990s 10002000 万词次小型的一般语料库一般而言,在保证质量的前提下应足够大。语料库的管理与维护错误修正或改善版本升级语料库的检索系统、分析和处理工具的维护等4.6 语料库建设中的问题NLPR, CAS-IA 2006-3-21宗成庆:自然语言理解讲义NLPR汉语语料库开发中存在的问题语料库建设的规范问题信息处理用GB13000.1 字符集汉字部件规范1997.12.5国家语委; GB12200.1-90 汉语信息处理词汇01部分:基本术语国家技术监督局(1993); GB/T12200.2-94 汉语信息处理词汇02部分:汉语和汉字国家技术监督局(1994); GB13715 信息处理用现代汉语分词规范。4.6 语料库建设中的问题