1、语言文字应用 2000 年第 2 期 (总第 34 期 )关于语料库的建立 X约翰辛克莱 著 王建华 译提要 本文首先指出建立语料库的重要性 ;接着谈了语料库的设计、选材的方法和标准、语料库建立的框架和规定、语料库的类型等几个方面 ;在语料库的类型部分 ,本文重点谈了监控语料库的特点。Corpus CreationJohn S inclai r 译者 W ang jianhuaAbstract This paper first refers to the importance of creating corpora. Then it presentsfollowing points. the
2、design , ways and criteria of corpus selections ,framing and provisionsforcreating corpora and types of corpus , etc. In the section of types of corpus ,the paper de2scribes the features of monitoring a corpus.引 言任何语料库研究均开始于语料库体的建立 ,语料库的设计及选材几乎控制以后所要做的一切基于语料库的研究工作 ,研究结果的好坏只与语料库的建设质量有关。361999 年第 2 期X
3、 注 :此文是依据英国著名语言学家、语料库语言学专家约翰辛克莱 (John Sinclair)的语料库、检索和搭配 (Corpus Concordance Collocation)一书的第一章翻译而成的 ,这本书现已由上海外语教育出版社发行 ,全书共九章。翻译前 ,译者本人多次与约翰辛克莱先生联系 ,并取得他的许可权 ,而后才翻译本文。书中第一章概括讲述了语料库建立的有关内容 ,其中讲述的监控语料库部分在想法上与我国北京语言文化大学教授、语言学专家张普先生提出的动态流通语料库有相似的地方 ,张普先生提出的流通度的概念使得动态更新知识库在理论上可以获得量化的评价依据 ,使得监控语料库这一美好的想
4、法完全可以实际建立起来。对于流通度这一概念及动态更新知识库可参看他近两年的有关论文。限于篇幅 ,在此不再详述 ,本人以后会对监控语料库和动态流通语料库做一些评介和比较。在这本书的后几章中 ,辛克莱先生详细谈了建库的准备工作、从建立的库中可获取的知识及对入库材料的评价。 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http:/一 谁应该做语料库的设计者 ?设计者应根据常识知识对所选材料的一些特点进行把握。语料库的规格要求 - 所选材料的类型和比例的确定 %根本不是语言学的事而
5、更多是文化社会学方面的内容。在语言学家看来 ,语料库语言学就应该描述和分析他们所接触过的所有语言实例。在语料库语言学发展初期 ,需由语言学家做文本的选择工作 ,当这门学科的影响已经很大时 ,就应该把这个工作交给以语言研究为主的社会科学家。当然 ,语料库的规模和设计应考虑文本的选择标准。当我们不确定自己的设计方案的优劣时 ,我们必须依靠一个已出版的有关语料库的内容确定的表去做。 (例如 ,Renouf , 1987) 。用户和评论者可以把语料库的结构及平行性看作是和语料库中的语言实例相分离的东西。接下来我将用最通用的术语来谈谈我对建立文本语料库的一些想法。二 通用语料库我首先考虑的是建立语料库的
6、目的。一般情况下 ,建立语料库往往是选出一些好的语言实例可供多方面使用 ,这就不再多列举。但在产品开发的一个阶段或一个科研项目的研究过程中 ,可能会有些例外。在本章中 ,我将只谈及通用语料库的建立 ,而特殊用途语料库的建立也可用相似的方法。一个通用语料库的参考价值很大 ,在未来几年内这种作用可能会迅速增强。现在 ,人们普遍接受这种看法 :词典及语法书上的内容趋向文档化 ,这是语言研究成熟化的一个重要标志。在信息科学领域 ,各学科的人们越来越认识到 :语料库作为生活语言的抽样可由高级的计算机提供 ,这将给人们的研究开辟新的途径。三 语料库建立的框架建立语料库的框架很简单。首先确定语料库的规模、优
7、先级、参考目录等 ,然后根据要求挑选文本。下面将详细讨论每一个步骤 ,但各步骤都受以下两个非常实际的问题影响。四 电子版形式一是将语料库存入计算机中必须有电子版形式的材料 ,这种材料或者从印刷品中得到 ,或者直接从计算机处理过的文本中得到 (印刷品、词处理材料、电子邮件等 ) 。当前 ,有三种常用的文本输入方式 :a1 整理已经以电子形式存在的材料b1 用光读扫描方式录入转换 (机读 )c1 通过键盘输入方式转换在很多情况下 ,这三种方式都用得到 ,因为不同类语料适用于不同的方式。例如 ,手写体材料和话语记录需要键盘输入法 ;但对于新闻材料 ,如果是电子版形式 ,可以很经济地选入。对于大量的用
8、传统方式印刷的书籍 ,最好选择扫描的方法。因为万能扫描仪 (能读任何型体的文字 )目前还很少且用价很高 ,所以对项目经理来说鼓励人们使用这种扫描仪将很重要。只有这样 ,万能扫描仪才能更加大众化 ,一般用户也能使用。扫描仪将会一直很有用 ,因为如此多的印刷材料永远也无法用键盘输完。然而 ,即使用现代的出版印刷方法 ,也需要一个电子化阶46 语言文字应用 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http:/段。文本的作者视这一个阶段只是一个实现结果的手段而很少保存副本 ;研
9、究者应该能够得到合作 ,从而得到越来越多的印刷材料。五 许可权另一个实际的问题是得到作者的许可把文本转换成电子版形式 ,并选用各种论文、报告、及其它出版物中的材料 ,这是法律较敏感的地方。尽管人们从版权编辑处得到相当可靠的感觉 ,然而很好地、合法地保护一个大规模语料库的工作量是巨大的。如果版权所有者完全理解为什么有人想用他们的文本而且知道采用什么措施可反盗用 ,那么就可以回避繁杂而无效的劳动。如果这个问题不能在世界范围内得到解决 ,情况可能会比较糟糕。对于一些特殊的情况可以有一些方法 ,但在语料库的设计过程中 ,这个隐含的阴影却时刻笼罩在设计者的心头。一些迹象表明欧洲委员会对这个问题有所警觉
10、,并在用它的影响力去进一步加强欧洲语言的语料库建立。对参考他人资料感兴趣的出版商正考虑与作者签定正式的授权合同 ,这样在未来就会减少是否合法的纠纷及不必要的案卷工作。六 设 计对这些问题的认识越来越清楚 ,我们更应该注重文本选择标准的确立。我们主要用常识知识 ,但有一些从我们经验中得到的启示很值得我们思考。口语和书面语 :也许最长远的决定应该是 :所建的语料库应该只包括书面文本 ,或是只包括口语副本 ,或是两者都包括。大多数语料库回避口语的诸多问题 (除了几个突出的特殊例子 ) ,一个语料库随便声称自己可以反映“语言状态”是最不幸的事。相当多的语言学者和语言老师相信口语形式的语言要比书面形式的
11、语言更能反映语言最基本的组织形式。但也有很多作者持不同观点并写文章对此进行批评。根据自己的经验我倒认为即时的讲话无法找到替代物 ,在 1961 年我决定对谈话进行搜集并建成语料库 ,这是我所做过的最值得庆幸的事之一。那个时候我就深信自动生成话语副本已为期不远了 ,现在仍然如此。类似话语的语料 :在做这个项目的早期我们不可能搜集口语材料 ,但可以尝试着搜集电影脚本、剧本等 ,好象在某些方面用这种方法弥补了一些不足。但在通用语料库中 ,用这种方法获取的语料库 ,其价值就很有限。因为它们被视为语言 ,在人工环境下用书面形式刺激话语。每一个都有其明显的特征 ,但哪一个也不能真实地反映真实的对话。而对很
12、多人来说 ,真实的对话语言才是口语语言的精髓。在一个文本里如果全面记录了群众大会讲话、问讯、法庭案例审讯、收音机广播和电视转播讲话等 ,那将是一个特殊的整合体。尽管人们所用到的即席演讲语言和思考后所用的的语言相混合是很正常的 :一些脚本和大声读出的叙事文 ,但是这种记录不一定就代表一般谈话所用的语言。口语语料库的建立并不象书面语语料库那样简单 ,它需要专章讨论。既然大多数语料库的内容都是有关书面语的 ,我想在本章剩下的部分集中讨论文本语料库的建立。正式语言和文学语言 :建库所涉及的语言材料有正式语言也有非正式语言 ,有文学语言也有日常用语。正式语言要比非正式的好获取得多 ,文学语言要比日常语言
13、更容易得到。一般情况下 ,在选取语言材料建库时 ,语料库设计者应想法使语言材料的这种不平衡性得到互补。短暂的、非正式的、为了交际用的书写材料通过邮递传送、通过邮箱发出去 ,结果在商店里、办公室内、候车厅内、包裹袋上及办公室的文件盘内大量涌现 ,人们往往忽略它们 ,但它们传播很561999 年第 2 期 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http:/广且是典型的常用散文。为了平衡起见 ,建库时 ,应少选正式的文学材料 ,尽管它们是最好的当代文学材料。原因很简单 ,只
14、是因为它们太正式且容易得到 ,故没有代表性 ,这一点也没有恶意和反文学的味道。典型性 :语料库的重要用途之一是区别出语言中核心的和代表性的东西。这种语料库作为参考材料很有价值 ,因为基于这种语料库文学艺术家的著作才可得到认真的研究。但是 ,如果成名作家的作品在语料库中占绝对多的份额 ,那么从规范参考这一点上来讲 ,语料库就没有或很少有价值。另外 ,创新性是文学的特点之一 ,我们希望建一个文学文本语料库 ,在这个库中 ,普通的、日常用语应该占较低的比例 ,因为建库处理只强调反复出现的模式却以牺牲特例为代价 ,所以一些典型的文学模式就会被忽略 ,这主要是因为特例出现的次数少 ,不足以按照主要的和典
15、型的模式处理。同样 ,在记者行业一些有名的作者倾向于用独特的写作笔法 ;而在语料库中一些平淡无味的报道则更加有用 ,这是一种非常危险的偏见和误解。如果对于语言的用法我们有一种更趋向现实的看法 ,我们必须记录下大量普通作家语言的使用法而不是少数几个天才和聪明的记者的笔法。设计的标准 :事实上有很多很多其它可用的标准 ,因为每一个标准都将增加很多有本质区别的不同样本语料库。关于这一点在后面我将多谈论一些。关于语料库标准的讨论在 ( Re2nouf1984)中有很多 ,并且此论文中记录有 Cobuild 项目中用到的标准。作为说明 ,我认为应该建立通用语料库 ,而对于某个专业领域的语料就不收入这个通
16、用语料库或者作为辅助语料库单独保存起来。一个通用参考语料库的材料应该来自不同的专业领域 技术的、方言的、和小孩的语言材料等。在这样的语料库中 ,同类材料涉及的面广泛 ,但这些材料都是来自于不同的渠道 ,所以材料来源的特点就不那么明显 ,除非研究者把特殊的文本分开来放。在 Biber s 的范畴划分工作之前 ,保证语料来源的多样性非常重要 ,Biber 的范畴划分是用内部语言的标准来确保抽样有较高的充分性和有效性。因为大量的新闻印刷材料容易得到 ,所以必须记住新闻报纸上的语言只是英语语言的一种形式 很多相关变体中的一组 是一个不可靠的抽样。时期 :大多数语料库所选语料都试图涵盖某一特定时期 ,且
17、有很清晰的时间标志 ,标示出话语是第一次说出的 ,或文本是第一次出版的。然而 ,如果我们想要抽取的材料受社会的影响比较大 ,那么其它因素就变的更加重要。书面材料可能需要一些时间才能确立它的位置 ,而后可能还要保持一段时间的影响。莎士比亚剧中和 King James 的圣经中所用的词对今天英语的用法还有影响。总规模 :在最初的方案设计阶段和向公众说明时 ,大多数研究人员首先关心的总是语料库的规模大小问题。此处我想指明的唯一的一点是语料库应该尽可能的大且应该不断增加。这个看法的根据是文本中词的出现模式 ,它首先由 Zipf (1935)指出。从本质上来讲 ,词的出现频率有很大的不平衡性。任意一个英
18、文文本的篇幅大都由像 of , is , up , 和 by 这样的词占有 ;像like , taken , any , 和 most 这样的词就少一些 ;而 words 这个词则更少 ,更不用说 text 这个词了。 (例词是下面这个句子的前十个词 :Most of any text is taken up by words like of ,is , up ,and by ; rather less by like ,taken ,any ,and most ;) 。一个文本甚至是很长的文本中大约有一半的词汇是那个文本中只出现过一次的词构成。66 语言文字应用 1994-2007 Chin
19、a Academic Journal Electronic Publishing House. All rights reserved. http:/词和词频的关系是规则的。英语中最常用的词 the 的频率大约是下面两个词 of 和 and 的两倍。这在第二章图 4 中有说明 (参看书后面附录 1) ,频率相当稳定且快速地下降 ,因此第 19号同时也是高频词的 be 比高频词 the 还要少 10 个百分点 ,而第 84 号词 two 的出现频率要比the 低 5 个百分点。为了研究词在文本中的真实情况 ,我们需要有大量的关于词的出现情况统计。像前面正式语言和非正式语言的选取一样 ,我们又遇到
20、统计中的一些麻烦 ,因为如果我们对出现的词按用法和意义分类 ,我们又会发现同样的不平衡性。有时 ,一个词的一个用法可以很典型地代表所有其它的用法 ,而有时侯一个词的几个用法在文本中只出现了一个。如果根据这种情况作一个描述性的说明 ,那么这个说明就没有充分性。这就是为什么一个语料库应该包括数百万的词 ,以实现平衡。抽样语料库的规模 : 对于任何抽样语料库 ,在开始的时候必须确定它的规模大小。对于这一点 ,有各种不同看法。有些语料库仿照了布朗语料库 (布朗大学 )的做法 ,而和布郎语料库并行的英国 LOB (Lancaster2Oslo2Bergen)语料库选择大约 2000 万字规模的平衡抽样语
21、料库作为研究对象 ( Hofland and Johansson 1982) 。如果其它机构在设计程序时注意统计因素 ,这样的语料库有利于进行比较 ,将很有价值。然而 ,语料库的主要分类在很大程度上是按照语感标准进行的。另外 ,如果一个语料库不能反映它所抽取的文件的规模和形态 ,那就是很危险的事情 ,这个语料库只能被视作不完整的材料集合 ,从这种由不完整材料所构成的语料库中只可得到少量的模式。这一点在这一章稍后的抽样语料库中将有详细论述。整个文档 :可选的另一搜集材料的方法是收集整个文档。这样就不用担心我们所选用的一个文本不同部分之间明显的差别。在一本书那么长的文本中 ,很多的语言特征并非均匀
22、地分布在里面 ,而由整个文本构成的语料库和短的样本集比较起来更适合于大范围的语言研究。再者 ,我们无须关心抽样调查的有效性。另外 ,如果因为某些原因想得到随机的抽样 ,每一个抽样语料库的规模在 2000 字左右 ,这从大的完整文本集中很容易得到。提倡不断增加文本语料库还有另一个原因 ,有了一个大的语料库我们可以根据需要不断地从中抽取出我们所需要的更具体的和更专业的语料来。由于语料库做不好而造成的错误主要来自早期对文本资源来源的选择。用整个文本录入建库的方法建立语料库并不象建立小的抽样文本库那样好办。并且个人的语言风格和主题特性有时在概括选择文本建立的语料库中会有所体现。正因为这样 ,早期建立语
23、料库时 ,人们总倾向于用概括抽样的方法建库 ,这样可以消除短期的困难但造成长期的不便 ,因为对于搭配的研究要想取得正确的结果 ,必须有足够大的语料库才可以从中获取足够的证据以便于统计处理。最小标准 :在语料库资源的选择上 ,要用到很多可能的标准。我的意见是 ,建立语料库时 ,要统一采用最小的标准集 ,这个标准集是根据不同情况确立的 ,因此不同文件的数量应该尽可能的少。对选进语料库中的材料作出详细的记录是很有好处的 ,这样选进的文本的辨认就有了根据 ,不像其他文本的选入只是作为一种规范。这样就很有必要根据各个标准的结合情况来选入文本。文本的规模前面已经提到 ,文本的部分内容或文本的全部均可进入语
24、料库。确立一个通用语料库的标准应该考虑如下因素 :选入的内容是否为小说 ;是从报纸上、杂志上还是从书上选入的 ;是正式的还是非正式的 ;作者的年龄、性别和出身。临时语料库 :用上面的程序 ,我们可以建起一个一千万到两千万之间的有价值的、通用的761999 年第 2 期 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http:/小型语料库来。如果为了临时研究的需要 ,这个语料库可以经过改进来使用 ,其标准大体一致。对语料库的改进需要在感到有缺陷的地方增添文本 ,对那些过分强调一
25、种写作的一个方面且很长的文本更应修改。这种语料库对于研究多种语言模式和成千上万的词的意义都是足够的 ,但要整体描述语言是不够充分的。语料库的规模可以根据同一个标准扩大 ,这样我们就可以发现一些更加清楚、更加详细的事实来。但是还有成千上万的东西我们不知道该怎么做 ,频率很低的词、很少见的义项、一些少见而明显的短语和一些不同的体裁等。对于搭配和构词的研究 ,很有必要研究大量的文本 ,为了把反复出现的文本模式分离开和减少瞬间性的模式。最近的语法研究 ( Sinclair , Fox , etal. 1990)表明 ,单个词的详细模式是确立通用语法的必要依据。处理 :此处需要说一下从一个文本中获取、加
26、工和抽取信息的方法。文本在计算机中的实现形成统一的标准是很有益的。在写这些东西的时候 ,一个国际文本编码倡议行动正在进行 ,制定文本储存标准 ,这要比大多数当前的协议制定更复杂 ,这在不久的将来会形成标准化。文本编码创倡议活动有望对以下几个方面进行规范。A1 提供全部的参考书目信息 ,或电子版形式 ,或纸页形式B1 用一个标准的协议把真实语言文本从其它编码中分离开来C1 语言文本可用一个统一的格式编码 ,或者提供详细的内容 ,这样文本之间可以很容易转换。D1 除了动态文本 ,任何编码都可以被识别和分类 ,例如字体编码 ,编排规范码、参考系统码、家务管理码、语言分析标记码 ;所有的提供非标准码的
27、符号表 ;以及自动生成的标准和那些人文机构使用的标准之间的差别的详细描述。七 纯文本原则最安全的策略是使文本保持原有的样子 ,不进行加工而且不搀杂其他编码。这些可用在特殊的调查中 ,用这种方法有两个标准原则。首先 ,每一个特定的调查可能根据不同的优先级来考察语言。这种分析方法和规定对下一个调查者很有价值和意义 ,还能适合新的需要 ;但由于标准化不足 ,所以它还不能成为整个语料库的一部分。其次 ,尽管语言学家徒劳而匆忙地对词 (意思是释义项 ,看第三章 ) 和其他的项目进行抽象 ,但他们并不是都用同样的方式匆忙结论 ,他们也不会抽象地设计精确的规则。因此 ,即使是语言学中最基本的假设 ,像词的确
28、认、词型分类的确定和主要的词类一点也不标准化。每一个研究都会对另一个有益 ,但并不会给另一个的建立直接提供一个平台。在语料库建设的早期 ,一个学者的文本通常不能被其他学者使用 ,主要是因为没有一个统一的标准 ,用于分析的标记和语言是相混合的。现在 ,我们面对着强加于我们身上的难以处理的分析系统 ,这主要来源于传统的语言分析方法 ,这种方法过去在一些细节上忽失了语料库证据。这个问题的出现是因为计算语言学的各分支在过去常常忽略语料库证据 ,而在近几年都相当戏剧性地改变态度 ,转向了语料库证据 ,但是所获得的语言模型用现在所有的语言证据都无法说明。86 语言文字应用 1994-2007 China
29、Academic Journal Electronic Publishing House. All rights reserved. http:/八 基本规定保守的方法对语料库管理者也有一些帮助。文本的第一阶段测试需要大量的基本处理 ,这些可以通过简单有效的释义项、标注和分词标记符的规定来进行补充 ,当然在某一特定的研究文章的设计过程中需要更详细的调查。如果这些基本的工具使用都有明确的规定 ,有时就可以提供捷径。而且 ,这些工具在网上就可以得到 ,用不着自己做和存储。九 数据库如果没有研究人员的加工处理想从大的语料库中自动获取数据库是不可能的。所以首先是进行词的整理 ,这都应建立在关系数据库的
30、基础上。要讨论这个数据结构的细节则超出了本书的讨论范围 ,但各协定之间的协调则是必要的 ,在欧洲和世界上都一样。在欧洲 ,不同语种之间的词库应该相互协调 ,欧委会也当如此。十 维护一旦建起了一个语料库 ,它就需要定期的维护和升级。这里面总是有一些错误需要更正 ,为了适应新的软硬件需要对语料库进行改进和调整 ,或根据用户的需要对语料库进行调整都是必要的。另外 ,还要一直注意检索系统、加工处理和分析的工具。有时 ,软件也需要及时和经常地改进。十一 不同类型的语料库抽样语料库 :这个领域的研究已经有大约三十年的历史了。 1967 年 ,库塞尔和弗朗斯建立的语料库有重要的意义 ,因为现在仍有相当多的调
31、查研究使用布郎语料库 ,所以他们的远见卓识仍在得到认可。约韩逊及其同事 (1982) 所创造的英语平行语料库给语料库研究增加了可比较的一个方面。这些语料库使得研究者比以前更可能比较实际地调查较长的文本 (除了一些有特殊用途且高度受限的手工统计 ) ,且能虚拟未来使用的更长的文本。从 Brown 和LOB 语料库中所得到的信息和它们的结构限制对研究都是有益的。这些语料库的主要结构特点 :印刷的文本分成 15 个类大量的 (500 个 )较短的摘要 (2000 字 ) (总容量约有一百万字 )不同类下对摘要近似的随机选择摘要的大小和它们之间的关系 ,有很清晰的规律可循 ,且人们已经了解 ,所以大量
32、的信息可以很容易地从这些语料库中抽取出来。说容易只是相对的 ,它可以解释从文本的准备到能够利用这之间十多年的艰苦劳动。现在 ,我们至少可以说 ,我们兴趣的焦点已经从语料库中获取信息转移到对这些信息的释义上去了。在一些期望值很高的项目中 ,语料库的局限性开始显露出来。我想称这类语料库为抽样语料库。布朗语料库是对 1961 年美国印刷体英语的一个抽样。它的合理性在于对它的细心准备 ,而它的有效性则体现在它的内部结构的清晰性上。如果不正确地使用它 ,研究者就会预先受到警告。例如 ,因为连续文本的限制是 2000 字 ,所以任何大一些的文本研究都不可能。文本的词汇只能通过不同的体裁间接得到控制 ,因此
33、这注定要对961999 年第 2 期 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http:/一些不经常出现的词的结构进行研究。事实上 ,唯一可靠的词是那些在多种体裁范围内经常出现的词。这并不表明这样的语料库是对每一种体裁的有效抽样。重点应该考虑把印刷的语言作为一个整体来对待 ,正象标准文件包所显示的那样。如果对一百万字作为语言的一种状态进行合理的抽样是一种冒险的尝试 ,这样的话平行样本所必须的次级抽样就它们本身来讲就不是合理的抽样 ,因为它们太短了。不管目标库的规模有多大
34、 ,这一点仍是有效的。一个抽样语料库不是连续的 ,它的子类就不能再作为一个样本语料库存在。但是 ,随着软硬件的发展 ,对更长的文本进行分析的机会可能更多。有些信息尤其是高频词的结构特点可以从一个一百万的样本语料库中得到。但是 ,很清楚几年前在处理词汇这方面至少需要另一个量级。这在八十年代初已经做过 (1988 Sinclair ,ed ) ,当然了 ,使用者们已经要求进行另一个量级的尝试。英国当前的研究情况是 ,可以定期得到二十万词的当代英语语料库。欧洲的其它语种 ,(例如 ,德语、意大利语和瑞典语 )情况类似 ,另外几个语种也差不太多。在美国 ,一个可以迅速获取一百万词的项目已经启动。口语的
35、数量更加适中 ,但也呈现了同样的趋势。 1961 年的第一个语料库只有 135 ,000 字(Jones 和 Sinclair 1974) 。 1985 年 ,伯明翰语料库中口语成分占到一百五十万词。 90 年代 ,人们随时可以收集到一千到两千万的英语口语词。 1980 年 ,界于二者之间的人们为了研究而设计建立了一个三万五千词的口语语料库 ,同时成了几项研究的基础 ( Svartvik and Quirk , eds ,1980) .监控语料库 :随着科学技术的发展 ,人们的活动范围急剧扩大 ,人们的活动能力不断增强。计算机的存储现在很便宜 ,相当小的处理器可以搜索到大量的存储内容。语言学家
36、的理想机器应该是小脑袋大躯体的 ,这在几年前还被可爱地称作一个恐龙 ,可现在世界上很多地方的工作站已经把它变成现实。计算机排版在十年前还不很普及 ,可现在从桌面出版到巨大的报纸印刷出版、文字处理和电子邮件 ,计算机排版已经成了一个标准 ,每天数十亿的文字以电子形式抛出。如果这数十亿文字的文本只有很小一部分能得到利用 ,我们就不会缺乏文本 ,不管计算机系统的胃口有多大。但是 ,现在重要的是质量问题而不是数量问题。在计算机上浏览一下 ,一种语言的所有情况将会从我们的眼前流过。这样 ,就没有必要慢慢地和细心地建抽样语料库 ,只需要把网上大量的文本存储起来 ,再进行精心的研究 ,这对文本的长度没有任何
37、的限制。现在 ,我们想建立一种新的语料库 ,这个语料库在量级上和时间跨度上都没有限制 ,就象语言自身一样 ,处于不断发展之中。这样一个语料库的大多数材料都来自机读材料 ,为了做记录 ,每天的机读材料都要进行检查。慢慢地 ,它将会变的很大以至于不适合作任何的实际应用 ,那么它必须会有效地进行自我扬弃 ,抛弃无用的东西。我们所关心的焦点应该是当这些文本经过一组过滤器时 ,什么样的信息可以从这些文本中获取 ,这些过滤器的设计应该是反映研究者所关心的东西。我们不需要珍爱文本。我们生活在一个文本爆炸的时代。那些有内在价值而不是我们所首要关心的东西会被其它的机构好好地保存起来。通过把它们和通用语料库所提供
38、的内容进行比较可以加速对它们的研究。07 语言文字应用 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http:/监控语料库的特点这样的话 ,在任何时候 ,这个语料库就可以对当前可得到的英语材料进行大规模的、最新的挑选 ;这样的语料库不仅有历时的一面 ,而且因为它详细的记录 ,我们还可以得到一个综合的词库。这样的语料库 ,几乎每一种有国际地位的语言都需要。我们可以根据个人的需要 ,对巨大的、一直是动态存储的文本进行抽样 ,语言演变的详细证据也可从中有效获取。我们称这种新型的语
39、料库为监控语料库 ,因为为了某种研究我们可以从中得到“语言的状态”。一个样本语料库所不能提供的信息可以从对监控语料库的操作中搜索到。虽然这不是很明智的做法 ,我还是想谈谈第一批建这种监控语料库者所要遇到的困难。尽管硬盘已足够大 ,但处理器的能力还不能满足这项工作的速度要求。在一些敏感领域 ,文本的获取需要主要行业的合作。在这样的语料库中平行文本的获取要比抽样语料库中文本的获取容易的多。软件效率的提高成了一个头等重要的问题 ,到现在为止它仍得不到解决。更需要指出的是 ,那些参与此工作的人的远见性对决定此工作的长期价值 ,将起着至关重要的作用。三十年前 ,人们认识到建立一个抽样语料库的可能性 ,现
40、在它已经成了一个很标准的研究工具。现在建立一个监控语料库的可能性已经很清楚了。在接下来的几年内 ,我们希望在扩大对语料库的认识范围上和活动内容上多做一些工作。对英语的研究来说 ,下一步应该瞄准建立一个英语语言的监控语料库 ,这种研究对策是很有道理的。这将是一个英语语言知识库 ,从这个库中我们可以获得语言结构研究的新的途径 ,而这些结构对读者来说每时每刻都是问题 ,但是由于语言使用的环境问题 ,我们无法直接察觉这些语言结构。参考文献 1 John Sinclair Corpus Concordance Collocation 语料库、检索与搭配 ,上海外语教育出版社 ,1999。(王建华 中国矿业大学外语系 ,邮编 :100083)171999 年第 2 期 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved. http:/