中国语料库研究的历史与现状.doc-道客多多

资源描述

1、中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自

2、然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言

3、学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在,美国 Brown 大学建立了 BROWN 语料库(布朗语料库),英国 Lancaster 大学与挪威 Oslo 大学与 Bergen 大学联合建立了 LOB 语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统 TAGGIT 来给布朗语料库的 100 万词的

4、语料作自动标注,正确率为 77%. 他们还设计了 CLAWS 系统来给 LOB 语料库的 100 万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达 96%, 比基于规则的 TAGGIT 系统提高了将近 20%. 最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到 99.5%。这个指标已经超过了人工标注所能达到的最高正确率。现在,国外的主要语料库还有 :London-Lund 口语语料库:收篇目 87 篇,每篇 5000 词,共为43.4 万词 ,有详细的韵律标注 (prosodic marking)。AHI 语料库:美国 Heritage 出版社为编纂 Herit

5、age 词典而建立,有 400 万词。OTA 牛津文本档案库(Oxford Text Archive):英国牛津大学计算中心建立,有 10 亿字节。BNC 英国国家语料库(British National Corpus):1995 年正式发布,使用 TEI 编码(Text Encoding Initiative)和 SGML 通用标准置标语言的国际标准(The Standard Generalized Mark up Language, ISO 8879, 1986 年公布)。ACL/DCI 美国计算语言学学会数据采集计划:美国计算语言学学会(The association for Compu

6、tational Linguistics, ACL)倡议的数据采集计划(Data Collection Initiative, DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言 SGML 统一置标 ,以便于数据交换。LDC 语言数据联合会 (Linguistic data Consortium): 设在美国宾州大学,实行会员制,有 163 个语料库 (包括 Text 的以及 speech 的),共享语言资源。RWC 日语语料库:日本新情报处理开发机构 RWCP 研制,包括每日新闻4 年的全文语料 ,语素标注量达 1 亿条。亚洲各语种对译作文语料库 :日本

7、国立国语研究所研制,中野洋主持,北京外国语大学参加。为了推进语料库研究的发展 ,欧洲成立了 TELRI 和 ELRA 等专门学会。TELRI 是跨欧洲语言资源基础建设学会(Trans-European Language Resources Infrastructure )的首字母缩写,John Sinclair 担任主席,由欧洲共同体提供经费,其目的在于建立欧洲诸语言的语料库,现已经建成柏拉图(Plato)的理想国(Politeia) 多语语料库,建立了计算工具和资源的研究文档 TRACTOR (Research Archive of Computational Tools and Resou

8、rces),正在语料库的基础上建立欧洲语言词库 EUROVOCA。TELRI 每年召开一次 Seminar 。最近的一次 Seminar 在 Lubljana, (Slovenia)召开(22.September 26.September.2000),主题是从语料库中自动抽取知识(Automatic knowledge extraction)。ELRA 是欧洲语言资源学会 (European Language Resources Associationi)的首字母缩写,由Zampolli 担任主席, ELRA 负责搜集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。ELRA 建立了

9、欧洲语言资源分布服务处 ELDA (European Language resources Distribution Agency),负责研制并推行 ELRA 的战略和计划。ELRA 还组织语言资源和评价国际会议 LREC (Language Resources Evaluation Congress), 每两年一次。第一次会议于 1998 年在西班牙的 Grenade 举行;第二次会议在 Athens(Greece)召开(31.May 02.June.2000),第三次会议于 2002 年在西班牙的 Las Palmas de Gran Canaria 召开 (27.May 02.June

10、2002)。二、我国语料库的发展概况(一)早期的汉语语料库1、我国语料库研究的先河在我国,从 20 世纪 20 年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。当然,这样的语料库不是机器可读的,规模也很小,它是现代语料库的雏形,开我国语料库研究的先河,在我国语料库的发展史上是功不可没功的。着名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了语体文应用字汇,于 1925 年完成,于 1928 年由商务印书馆出版,陈书前有“绪论”,说明“ 中文应用字汇”曾有多种,其中包括 P.克仑茨(Pastor P. Kronz)的研究和他自己的编写

11、的常用四千字表。陈鹤琴做过两次统计,第一次统计使用了六种材料,包含 554,478 个汉字的语料,得不同汉字 4261个;第二次使用包含 34,818 个汉字的语料,得出与 4261 个汉字相异的汉字 458 个。第二次统计所得的成果毁于战火,在语体文应用字汇中印出的只是第一次统计的结果。陈鹤琴用的语料分如下六类 :儿童用书:127,293 字;报刊(以通俗报刊为主):153,344 字;妇女杂志:90,142 字;小学生课外作品 :51,807 字;古今小说:71,267 字;杂类:60,625 字。书末附有“字数次数对照表 ”,这是按汉字在语料中出现的绝对频率排列的字表。我国着名教育家陶

12、行知先生为语体文应用字汇写了序言。序言中说:“他们(指“近代教育家”) 对于一门一门的功课,甚至一篇文章,一个算题,一项运动,都要依据目标去问他们的效用。他们的主张是要所学的,即是所用的。到了后来他们连学生学的字也要审查起来了。学生现在所学的字,个个字都是有用的字吗?自从这个问题发生就有好几位学者开始研究应用字汇。我国方面也有几位先生研究这个问题,其中以陈鹤琴先生的研究最有系统。他和他的助理九人先后费了二三年工夫,检查了几十万字的语体文,编成这本语体文应用字汇。这册报告未付印以前已经做了平民千子课用字的根据。将来小学课本用字当然也可以拿他来做一个很好的根据。虽然不能十分完备,但我想这本字汇

13、对于成人及国民教育一定是有很大的贡献的。 ”(见陈鹤琴语体文应用字汇,商务印书馆,1928 年) 。2、早期的机器可读语料库从 1979 年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有:汉语现代文学作品语料库 (1979 年),527 万字,武汉大学。现代汉语语料库 (1983 年),2000 万字,北京航天航空大学。中学语文教材语料库 (1983 年),106 万 8 千字,北京师范大学。现代汉语词频统计语料库 (1983 年),182 万字,北京语言学院。我们以北京语言学院的汉语词频统计语料库来说明早期语料库的情况。1979 年,北京语言学院( 现在改名

14、为“北京语言文化大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。这项研究工作 ,采用人工与计算机相结合的方式,对 179 篇样文、182 万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为 1,315,752 词次 ,含不同单词 31,159 个,其中包括十年制语文课本(52 万字,374,654 词次) 的字频和词频的定量分析,统计结果编成现代汉语频率词典出版。他们选取的语料可以分为如下四类:报刊政论:44 万字,占语料总量的 24.4%。科技和科普文章 :29 万字,占语料总量的 19.8%。口语材料:

15、20 万字,占语料总量的 11.1%。文学作品:89 万字,占语料总量的 48.7%。整个语料共 182 万字。这样容量的语料,在当时已经是比较大的语料库了。根据数理统计的原理 ,所统计的语料的总体个数必须达到一定足够的数量,才能保证统计结果符合客观实际。现代汉语频率词典的编者认为,如果常用词的出现频率不低于百万分之一,也就是在一百万次的场合,常用词的出现机会至少应该有一次,就可以保证统计结果的客观性。现代汉语频率词典实际上统计了 182 万个汉字的语料,因此,其抽样是合理的、经济的、适度的。但是,国外在 1971 年进行英语词频统计时,所用语料量有5,088,721 个词,包含不同单词

16、86,741 个,统计规模比现代汉语频率词典大得多。由于语料库语言学的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库已经不算少见。与当前语料库的容量比较起来,现代汉语频率词典所依据的语料规模是小了一些。不过,尽管这样,现代汉语频率词典在词频统计方面取得的成绩仍然是很大的。这次词频统计得出了如下词表 :1、按字母音序排列的频率词表:共列出常用词 16,593 个,按音序排列,从中可以看出:汉语中以 Z、S、J、Y 开头的词较多 :以 Z 开头的词有 1457个,占 8.78%;以 S 开头的词有 1327 个,占 7.99%;以 J 开头的词有1243 个,占 7.49%;以 Y

17、开头的词有 1205 个,占 7.26%。汉语中以 E、O 开头的词很少:以 E 开头的词只有 64 个,占0.38%;以 O 开头的词只有 13 个,占 0.07%。2、按频率递减的顺序排列的词表:在词表中,最常用词的使用频率相当高,前 100 个词占了语料总量的 40%以上,前 500 个词占了语料总量的 70% 以上,前 2562 个词占了语料总量的 85%,词表共有不同单词 31,159 个,这些词占了语料总量的 100%。从前100 个词到前 500 个词,不同的单词数增加了 400 个,百分比就增加了 30%,而从前 2562 个词到前 31,159 个词,不同单词数增加了30,

18、597 个,百分比材增加了 15%。由此可见,高频词对于百分比的增加有着很大的作用,而低频词对于百分比的增加,其作用是微乎其微的,往往要大量的低频词,才能使百分比增加一点点。3、按使用度递降顺序排列的词表:使用度是 1954 年尤兰德(Juilland)和洛德西盖(Chang-Rodsiguez)在计算西班牙语的词汇频率时提出的一个新概念,他们并且也提出了计算使用度的数学公式,根据这个使用度公式计算出的使用度,可以综合地反映单词在出现频率和分布率两方面的情况。他们根据使用度的计算公式 ,计算了单词的使用度,并给出了按使用度递降顺序排列的词表。这个词表又分为两个表:使用度较高的前 8000 词的

19、词表,使用度较低的词语单位表。在使用度较高的前 8000 词的词表中,使用度在 20 以上的词共 4186 个,其词次累计占了全部语料(314,404 词次) 的 90.1%。这说明,现代汉语频率词典所统计的语料中,有十分之九是用这4186 个词写成的,这些词可以成为“常用词”的候选对象。在使用度较低的词语单位表中 ,收入了使用度为 5 及小于 5的词 22,446 个,这些词一般也都是低频词。在这种情况下,如果有的词的使用度和频率相匹配,则说明这些词的分布还是比较均匀的,这些词可以作为“通用词”的候选对象。4、按语体分类的高频词表,又可再分为 4 个表:a.报刊政论语体的前 4000 词的词

20、表:本表共统计 34 种语料,29 万词次(44 万字), 有不同词条数 12,107 个。前 4000 个词累计频率 94.77%。其中一些政治词语,如“唯心、党派”等,在本表中出现频率都比较高,反映了政论语体的特点。b.科普语体的前 4000 词的词表:本表共统计 21 种语料,20万词次(29 万字), 有不同词条 12,364 个。前 4000 个词累计频率92.27%。其中一些科技用语,如“纤维、合成”等,在本表中出现频率都比较高,反映了科普语体的特点。c.生活口语中前 4000 词的词表:本表共统计 18 种语料,16万词次(20 万字), 有不同词条 8263 个。前 4000

21、个词的累计频率为 96.65%。从统计数字可以看出,口语语体的用词量比前两种语体要少三分之一,但高频词出现的词次却相当多,前 1000 个高频词的出现频率比 a 表高出 6%,比 b 表高出 12%。这意味着,口语语体的用词量虽然不大,但是它们的出现次数对语料的覆盖面却相当大。d.文学作品类前 4000 高频词的词表:本表共统计 106 种语料,66 万词次(89 万字), 有不同词条 23,622 个。前 4000 个高频词累计频率为 90.63%。这说明文学作品的用词量大,但是为了追求用词的多样化,即使是高频词的出现频率也比较低,这反映了文学作品词汇丰富多采的特点。早期的这些语料库的具有如

22、下特点:多数是采用手工键入的方式建立的,耗时耗力,缺乏规范,规模较小,重用性差。为了建设这样的语料库,需要付出艰辛的劳动,着名专家刘源教授(北京航空航天大学计算机系教授) 在 2000万字的语料库建设中积劳成疾,健康受到严重的损害。我国语料库的早期建设者的敬业精神是值得我们尊敬的。发现了汉语文本切分歧义的两种类型:北航和北语的语料库进行了词频统计,北航还进行了自动分词研究,发现了两种不同的分词歧义字段(Ambiguous Segmentation Strings, ASSs):交集型歧义字段和多义组合型歧义字段。交集型歧义切分字段 :例如:“地面积”可能切为“地面”或“面积”,“面”成为交段,

23、从而产生歧义。多义组合型歧义切分字段 :例如:“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。梁南元(1987)对一个 48092 字的自然科学、社会科学样本进行了统计:交集型切分歧义 518 个, 多义组合型切分歧义 42 个。据此推断,中文文本中切分歧义的出现频度约为 1.2 次/100 字,交集型切分歧义与多义组合型切分歧义的出现比例约为 12:1。建立了初步的分词规范 :1990 年 10 月,在计算机界和语言学界的共同努力下,我国制定了国家标准 GB-13715信息处理用现代汉语分词规范,这个国家标准提出了确定汉语单词切分的原则,是汉语

24、书面语自动切词的重要依据。(二)国家级语料库的建设1991 年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达 7000 万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:时间的限制 :语料描述具有历时特征,着重描述共时特征。选取从 1919 年到当代的语料(分为 5 个时期),以 1977 年以后的语料为主。文化的限制 :主要选取受过中等文化教育的普通人能理解的语料。使用领域的限制 : 语料由人文与社会科学类、自然科

25、学类和综合类 3 大部分 ,人文和社会科学再分为 8 大类 29 小类,自然科学再分为 6 大类 ,综合类再分为 2 大类。主要选取通用的语料 ,优先选取社会科学和人文科学的语料。这个语料库现在只完成了 2000 万字语料的输入和校对工作,尚未进行进一步的加工,还是“生语料库”,因而还不能提供社会使用。由于主要靠手工录入,人工劳动的成本很高,据说单是建立生语料库,耗资约 200 万人民币。为了加工这个国家级语料库 ,国家社科基金设立了社科重大项目“信息处理用现代汉语词汇研究”,希望利用该项目的成果来加工这个语料库。该课题分 10 个子课题:信息处理用现代汉语分词词表歧义切分与专有名词识别软件词

26、的构造研究现代汉语词类及标记集规范汉语词类兼类研究现代汉语的语法属性描述研究现代汉语述语动词机器词典和槽关系研究汉语知识词典建立及词汇内部语义网络描述研究汉语文本短语结构的人工标注常用动词语义特征及词义搭配研究现在,该课题已经结项 ,国家语委语言文字应用研究所成立了“汉语语料库深加工”的课题组,准备对国家级语料库的 2000万字的核心语料进行深加工,逐步把这个生语料库变为熟语料库。(三)大规模真实文本语料库1992 年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单

27、位有:人民日报光盘数据库,北京大学计算语言学研究所,北京语言文化大学,清华大学,山西大学,上海师范大学,北京邮电大学,香港城市理工大学,东北大学,哈尔滨工业大学,中国科学院软件研究所,中国科学院自动化所,北京外国语大学日本学研究中心,台湾中央研究院语言研究所(筹备处) 。下面分别加以介绍。1、人民日报光盘数据库收集该报 48 年的全部文字和图像内容,公开发行。2、北京大学计算语言学研究所该研究所建立了现代汉语标注语料库,与富士通公司(Fujitsu)合作,加工 2700 万字的人民日报语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语) 标注。还要对多音词注音。示例 1:古城/n

28、虽/c 遭/v 破坏/v ,/w 但/c 它/r 留下/v 了le5/u 契丹族/nz 和he2 各ge4/r 民族/n ,/w 特别/d 是/v 汉族/nz 劳动/vn 人民/n 共同/d 开拓/v 祖国/n 北疆/s ,/w 创造/v 我国/r 历史/n 文明/n 的de5/u 足迹/n 。/w示例 2:19970310-01-002-0020/m 全国/n 人大/jnt 代表/n 、/w 陕西/ns 西安/ns 美术/n 学院/nnt 名誉/n 院长/n 刘/nr 文西/nr 利用/v 会议/n 休息/vn 时间/n 创作/v 了/u 邓/nr 小平/nr 画像/n /w 与 /p 人

29、民/n 同/d 在/v /w 。/w 画像/n 表现/v 了/u 邓/nr 小平/nr 同志/n 祝愿/v 祖国/n 繁荣/a 、/w 人民 /n 幸福 /a 的/u 伟大/a 胸怀/n 。/w (/w 新华社/nt 记者/n 齐/nr 铁砚/nr 摄/v )/w示例 3:19970310-01-003-0020/m 世纪/n 之/u 交/Ng ,/w 中华/nz 民族/n 正/d 迎来/v 前所未有/i 的/u 发展/vn 机遇/n 。/w 十几/m 年/q 来/f ,/w 改革/v 开放/v 的/u 不断/d 深入/v ,/w 党/n 的/u 民族/n 政策/n 的/u 贯彻/vn 落实/

30、vn ,/w 全国/n 人民/n 的/u 大力/d 支援/v ,/w 使/v 我国/r 民族/n 地区/n 经济/n 和/c 社会/n 发展/vn 步伐/n 大大/d 加快/v 。/w 加倍/d 珍视/v 和/c 继续/vd 发展/v 这种/r 好/a 的/u 局面/n ,/w 巩固 /v 发展/v 各/r 民族/n 大/a 团结/an ,/w 成为/v 全国/n 各族/r 人民/n 的 /u 共同/b 愿望/n ,/w 也是/v 在/p 京/j 参加/v “/w 两会/j ”/w 的/u 代表/n 和/c 委员/n 的/u 一致/a 心愿/n 。/w经富士通公司检验 ,标注的正确率很高。他们

31、制订现代汉语语料库加工手册词语切分与词性标注。切分规范中,主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。他们采用切分和标注相结合的原则来建立规范,在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在该规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。在标注规范中,规定了一般词性的标注规范和专有名词的规范。此外,他们还建立了一个小型汉语树库:与新加坡国立大学计算机系合作,内容为新加坡中学语文教材(1995 年),所有的句子都分析

32、为树形图。示例: zj dj 富士山/n vp 是/v np 日本/n 的/u np mp 一/m 座/q 活火山/n 。/w zj fj fj dj 山峰/n vp 终年/d 积雪/v ,/w dj 云雾/n 围绕/v ,/w vp 只有/d vp pp 在/p np dj 空气/n 干燥/a 的/u np np 秋/n 冬/n np 两/m 季 /Ng ,/w vp 才/d vp 能/v vp vbar 看/v 清/a np 它/r 的/u 全貌/n 。/w zj fj dj np vbar 多/d 变/v 的/u 气候/n ,/w vp 更/d vp pp 为/p 它/r vp vbar

33、增添/v 了/u np 神秘/a 的/u 色彩/n ,/w vp 甚至/d vp 使/v 它/r vp vbar 孕育/v 了/u np 许多/m np 美丽 /a 的/u 神话/n 。/w zj dj np 富士山/n 的/u 景色/n ,/w dj 四季/t 不同/a 。/w zj fj fj fj fj 春天/t ,/w fj dj 山顶/s vp 还/d vp vbar 戴/v 着/u np 雪/n 帽子/n ,/w fj dj dj np 山腰/n 的/u 雪/n vp 却/d 溶化/v 了/y ,/w fj dj np 细碎/a 的/u np 小/a 花/n vp 开遍/v 山坡

34、/n ,/w vp vbar 远/a 看/v vp 象/v np mp 一/m 片/q np 紫色/n 的/u 海洋/n ,/w fj 夏天/t ,/w fj dj np np 残/Vg 雪/n 与/c np 山/n 花/n vp 倒映/v sp 湖/n 中 /f ,/w vp 充满/v 诗情画意 /n ,/w fj 秋天/t ,/w fj dj np np np 满/a 山/n 红叶/n 与/c np 雪/n 影/Ng 辉映/v ,/w vp 象/v np 个/q np 娇羞/a 的/u 姑娘/n ,/w fj dj 冬天/t dj 则/c vp 是/v np ap 纯/a 白/a 的/u

35、mp 一/m 片/q ,/w ap 庄严/a 而 /c 圣洁/a 。/w 北大语料库研究的特色是 :规模大:加工成的熟语料已经达到 2000 万字,不久将达到2700 万字,国内尚无先例。加工深:不仅做了切分和词性标注,而且部分语料还进行了短语结构分析,建立了树库。在大规模的语料库中,地名和专有名词都进行了短语结构标注。覆盖面广:人民日报的语料不仅包括新闻,还包括各种题材、各种风格、各种语体的文章,涉及社会科学和自然科学多种领域,有很广泛的覆盖面。正确率高:在自动加工的基础上进行了大量的人工加工,采用人机结合的策略,是语料库加工的正确率达到了国内最高水平,在国际上也是罕见的。无着作权纠纷 :与

36、人民日报达成协议,没有着作权问题。3、北京语言文化大学该校计算机系宋柔在远景校对系统的研究、开发和测试过程中一直注重采用大规模真实语料进行各种语言现象的统计、分析、检索、归纳。为此,他们与一些报社、出版社合作,收集、整理了一批综合性、规范性的电子文档资料,建立了一个大型的中文语料库(共约 5 亿字)。在获取语料后,又专门用工具软件或人工加工清理了语料,分别建立了 10 个语料库。各语料库情况如下:当代中国丛书:150 卷( 约 6 千万汉字)中华人民共和国年鉴 :1997 年语料(约 200 万汉字)新闻出版报 :1988 年语料( 约 260 万汉字)辉煌五十年湖南卷:1949-1999

37、年语料(约 70 万汉字)人民日报 :1993-2000 年七年语料(约 2 亿字)人民日报市场报:2000 年语料(约 1400 万汉字)人民日报华南新闻:2000 年语料(约 600 万汉字)人民日报华东新闻:2000 年语料(约 500 万汉字)经济日报 :1992 年语料( 约 1820 万字)新华社:1994-1996 年三年语料(约 3793 万字)宋柔还建立了面向语言学研究的汉语语料库检索系统 CCRL,可以让用户使用自己的生语料库和词典生成语料索引,进行检索。此外,北京语言文化大学还建立了如下的语料库:当代北京口语语料库 (1992 年)现代汉语语法研究语料库 (199

38、5 年)现代汉语句型语料库 (1995 年)现代汉语语料库 (1998 年,与香港理工大学中文及双语学系联合建立)现代汉语语料库 (1998 年,与清华大学联合,为国家自然科学基金重点项目“语料库语言学研究的理论、方法和工具”而建立)4、清华大学该大学也文秘站您的专属秘书！他们对于分词技术进行了深入研究,发现了伪歧义,提高了分词精度: 计算机系孙茂松、左正平(1998)指出,切分歧义应进一步区别“真切分歧义”和“伪切分歧义” 。譬如:同属交集型,“地面积”为真歧义(“ 这几块 | 地 | 面积 | 还真不小” “地面 | 积 | 了厚厚的雪”), “和软件”则为伪歧义(虽然存在两种不同的切分形

39、式“和软 | 件”和“和软 | 件”,但在真实文本中,无一例外地应被切分为“和 | 软件”);同属组合型,“把手”为真歧义,“平淡”则为伪歧义。他们还编制了信息处理用现代汉语分词词表,作为分词最重要的语言资源。中文系罗振声建立了现代汉语句型研究语料库,从中总结出209 种汉语句型。清华大学智能技术与系统国家重点实验室与北京语言文化大学语言信息处理研究所联合研发的人工标注语料库 HuaYu。这个语料库区别于其它类似语料库的特点:是:分布平衡, 不仅仅限于新闻报纸。HuaYu 的分布见表 1:分类篇数汉字数比例标点符号数词次数比例文学 295 880,057 44% 148,453 7

40、60,337 48%新闻 376 600,490 30% 86,163 438,095 28%学术 29 402,623 20% 52,823 278,728 18%应用文 258 119,488 6% 28,727 91,929 6%合计 958 2,002,658 100% 316,116 1,569,089 100%表 1 Hua Yu 语料库的分布其中文学语料的分布见表 2:分类篇数汉字数百分比标点符号数词次数小说 199 648,796 32.5% 112,749 566,730散文 37 80,067 4% 10,347 65,453回忆录 29 50,401 2.5%

41、6,908 38,338报告文学 13 50,019 2.5% 8,225 40,386剧本 17 50,774 2.5% 10,224 49,430合计 295 880,057 44% 148,453 760,337表 2 文学语料的分布他们对这个语料库进行了切分和标注。语料示例如下 :我|rn 认识|vgn 王眉|npc 的|usd 时候|ng ,|, 她|rn 十|mw 三|mx 岁|qnm ,|, 我|rn 二|mx 十|mw 岁|qnm 。| 。那时|t 我|rn 正|dr 在|pza 海军|ng 服役|vgi ,|,是|vi 一|mx 条|qns 扫雷舰|ng 上 |f 的|us

42、d 三七|ng 炮手|ng 。| 。她|rn 呢|y ,|, 是|vi 个|qng 来|vgn 姥姥|ng 家|ng 度假|vgi 的|usd 中学生|ng 。|。那|rn 年|qt 初夏|t ,|, 我们|rn 载|vgn 着|utz 海军|ng 学校|ng 的|usd 学员|ng 沿|pg 漫长|a 海岸线|ng 进行|vf 了|utl 一|mx 次|qv 远航|vgx 。|。到达|vgn 了|utl 北方|s 着名 |a 良港|ng 兼|vgn 避暑|vgp 胜地|ng ,|, 在|pza 港|ng 外|f 和|pg 一 |mx 条|qns 从|pg 南方|s 驶来|vgi 满载|

43、vgn 度假者|ng 的 |usd 白色|ng 客轮|ng 并行|vgi 了|utl 一|mx 段|qns 时间|ng 。|。进|vgn 港|ng 时|ng 我|rn 舰|ng 超越|vgn 了|utl 客轮 |ng ,|, 很|dd 亲近|a 的|usd 擦|vgn 舷|ng 而|c 过|vgi 。|。兴奋|a 的|usd 旅游者|ng 们|ki 纷纷|dr 从|pg 客舱|ng 出来|vgi ,|, 挤|vgi 满|a 边舷|ng ,|, 向|pg 我们|rn 挥|vgn 手|ng 呼喊|vgi ,|,我们|rn 也|dr 向|pg 他们|rn 挥|vgn 手|ng 致意|vgi 。|

44、。清华大学智能技术与系统国家重点实验室最近对 HuaYu 完成了语块库人工标注(200 万汉字左右), 并根据句子中动词类型和句子长度等因素,从中随机选取了 20 万词,进行语块标注,并进一步完成了完整的句法树标注。语块标注示例如下 :从/p 他/rN 的/u 身上/s ,/, 我们/rN 看/v 到/vB 了/u 一/m 位/qN 跨越/v 中国/nS CS 近代/t 和/c 现代/t 的/u 共产主义/n 战士/n 光彩照人/iV 的/u 楷模/n 。/。句法树标注示例如下 :zj dj pp 从/p sp 他/rN 的/u 身上/s ,/, dj 我们/rN vp vp vp 看/v 到

45、/vB 了/u np np mp 一/m 位/qN np vp 跨越/v tp 中国/nS tp 近代/t 和/c 现代/t 的/u np 共产主义/n 战士/n np 光彩照人/iV 的/u 楷模/n 。/。 5、山西大学他们根据不同的需要 ,建立如下不同的语料库,主要有:汉语新闻语料库 (1988 年),250 万字,山西大学,包括 4 部分:人民日报:150 万字,北京科技报:20 万字;电视新闻(CCTV):50 万字;当代( 杂志):30 万字。标准语料库(2000 年):.以分词规范和语委词类标记集为标准的综合语料:70 万字,其中 10 万字标到了小类。特定加工的语料 :- 标注

46、中国地名:标注了 280 万字的语料库(含不同地名1793 个,共出现 11590 次),建立中国地名库,共收 88026 个地名,同时建立中国地名用字库(3685 个) 和中国地名用词库(3917 个)。地名识别正确率为 86.7%,召回率为 93.8%。- 标注中国人名:标注了 300 万字的语料库,建立了姓氏人名库,得出了姓氏用字频率表(729 个) 和名字用字频率表 (3345 个),中国人名识别的正确率为 87.31%,召回率为 95.23%。- 标注西文译名:标注了 250 万字的语料库,西文译名资源来自英语姓名译名手册和新英汉词典的常见英语姓名表,正确率为 63%,召回率为 98

47、%。。- 标注中文组织机构名 :标注了 50 万字的语料库,对组织机构名的结构进行分析,使用基于规则的方法。- 标注网上语料新词语:标注了 150 万字的语料库。为了标注交集型歧义字段 ,建立了 7.8 万字的交集型歧义字段库,已标注 510 万字语料,分词正确率达 97%以上,同时证实了交集型歧义字段只有惟一可能的正确切分结果的伪歧义,占歧义字段总数的 94%。他们还建立多义组合型歧义字段库:收录了 133 条多义组合型歧义字段,比较全面的反映了组合型歧义字段的实际情况。6、上海师范大学该校建立了 3000 万字的生语料库;根据北大的标注规范建立了 300 万字的标注语料库。他们还建立了 100 万字作家文摘的标注语料库,选取 1997 年的作家文摘,题材包括传记文学、历史故事、记实文学、人物特写、小说、散文、评论等,依靠手工进行标注,不仅完成了切词和词性标注,还完成了短语结构关系和结构功能的标注。加工层次深。标注示例:zw 他/rp dbzc 期望/vz 着/utvpdb 打/vs dzsl 一/mx 个/qimpdzzc 漂亮/ax 的/usnpdz 大/ax 胜战/ngnpnpvpvpjp 。/w其中的 zw (主谓结构)、db(动宾结构)、 dz(定中结构)、sl(数量结

展开阅读全文