1、计算语言学研究的历史和现状,冯志伟,一,计算语言学的性质,计算语言学是一门边缘学科,计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴的边缘学科。 由于计算语言学的研究对象是自然语言,因此,语言学家把它算为语言学的一个分支; 由于计算语言学要采用先进的计算机科学技术来研究和处理自然语言,因此,计算机科学家把它算为计算机科学的一个分支; 由于计算语言学要研究自然语言的形式结构和自然语言处理的算法,因此,数学家把它算为应用数学的一个分支。 这种情况说明,计算语言学不是一门单纯的学科,而是一门边缘性学科。,自然语言处理的过程,一般地说,计算机对自然
2、语言的研究和处理应当经过如下4个过程: 从语言学的角度提出自然语言处理的问题和理论(linguistic problem); 把需要研究的语言学问题加以形式化(linguistic formalism),使之能以一定的数学形式或者接近于数学的形式,严格而规整地表示出来; 把这种严格而规整的数学形式表示为算法(algorithm),使之在计算上形式化(computational formalism); 根据算法编写计算机程序,使之在计算机上加以实现(computer implementation)。,理论和方法,上述的第一、第二个过程属于计算语言学的理论部分; 第三和第四个过程属于计算语言学的方
3、法部分。 我们有时把第三和第四个过程叫做自然语言的计算机处理(Natural Language Processing by Computer),简称自然语言处理(Natural Language Processing)。,更新知识,我们希望计算语言学研究人员同时具备语言学、数学和计算机科学的知识,成为文理兼通、博学多识的人才。 对于不可能同时具备语言学、数学和计算机科学知识的研究人员,至少对于自己原来所学的专业是精研通达的内行,对于另外两个专业不是似懂非懂的外行,这样,才有可能有效地从事计算语言学研究。 因此,我们应该提倡计算语言学的研究人员不断地进行更新知识的再学习。“活到老,学到老”,对于
4、计算语言学研究人员来说,决不是一句装扮门面的空话,而应该成为身体力行的座右铭。,二,计算语言学的萌芽期,萌芽期、发展期和繁荣期,同其他任何学科一样,作为一门新兴边缘科学的计算语言学是在一定的社会历史条件下应时代的要求而逐渐成长起来的,计算语言学的成长历程可以分为萌芽期、发展期和繁荣期3个时期。,“巴比塔”,人类对于计算语言学的研究早在“计算语言学”这个名称出现之前就开始了。人类历史上最早的计算语言学研究就是机器翻译(machine translation)。圣经创世纪中说,古代人类说的原是一种统一的语言,交流思想非常方便,劳动效率也很高,他们曾经想建立一座高达天庭的通天塔,叫做“巴比塔”,来显
5、示他们的丰功伟绩。建造巴比塔的壮举震惊了上帝,上帝便施伎俩,让不同的人说不同的语言,使人们难于交流思想,无法协调工作,以此来惩罚异想天开的巴比塔建造者。结果,巴比塔没有建成,而语言的不同,却成为人们相互交往的极大障碍。这样的传说当然是不可信的,但是,语言的障碍却时时刻刻在困扰着人们。,巴比塔,“普遍语言”的运动,在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。 笛卡儿(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。 在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann Joa
6、chim Becher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动,一些人试图在逻辑原则和图形符号的基础上,创造出一种无歧义的语言,这样一来,人们就不必再由于误解而产生交际方面的困惑了。,维尔金斯,维尔金斯(John Wilkins) 在关于真实符号和哲学语言的论文(An Essay towards a Real Character and Philosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性
7、质,给予不同的记号和名称。,数字语法,1903年,古图拉特(Couturat)和洛(Leau)在通用语言的历史一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语法(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。,用数学方法研究语言的先驱,1847年,俄国数学家B. Buljakovski认为可以用概率论方法来进行语法、词源和语言历史比较的研究。1851年,英国数学家A. De Morgen把词长作为文章风格的一个特征进行统
8、计研究。1894年,瑞士语言学家De Saussure指出,在基本性质方面,语言中的量和量之间的关系,可以用数学公式有规律地表达出来,他在1916年出版的普通语言学教程中又指出,语言好比一个几何系统,它可以归结为一些待证的定理。1898年,德国学者F.W. Kaeding统计了德语词汇的在文本中的出现频率,编制了世界上第一部频率词典德语频率词典。,用数学方法研究语言的先驱,1904年,波兰语言学家Baudouin de Courtenay指出,语言学家不仅应当掌握初等数学,而且还要掌握高等数学,他表示坚信,语言学将日益接近精密科学,语言学将根据数学的模式,更多地扩展量的概念,发展新的演绎思想的
9、方法。1933年,美国语言学家L. Bloomfield提出一个著名的论点:“数学只不过是语言所能达到的最高境界”。,用数学方法研究语言的先驱,1935年,加拿大学者E.Varder Beke提出了词的分布率的概念,并以之作为词典选词的主要标准。1944年,英国数学家G.U.尤勒G.U.Yule发表了文学词语的统计分析一书,大规模地使用概率和统计的方法来研究词汇。这些事实说明,关于语言计算的思想和研究是源远流长的。,四项基础性的研究,有四项基础性的研究特别值得注意:一项是Markov关于马尔可夫模型的研究,一项是Turing关于算法计算模型的研究,一项是Shannon关于概率和信息论模型的研究
10、,一项是Chomsky关于形式语言理论的研究。,A.Markov的研究,早在1913年,俄罗斯著名数学家A. Markov(马尔可夫)就注意到俄罗斯诗人普希金的叙事长诗欧根奥涅金中语言符号出现概率之间的相互影响,他试图以语言符号的出现概率为实例,来研究随机过程的数学理论,提出了马尔可夫链(Markov Chain)的思想,他的这个开创性的成果用法文发表在俄罗斯皇家科学院的通报上 A. A. Markov, Essai dune recherche statistique sur le texte du roman “Ougene Onegin” illustrant la liaison de
11、s epreuve en chain, Bulletin de lAcademie Impriale des Sciences de St-Ptersbourg, 7, 153-162. 。 后来A. Markov的这一思想发展成为在计算语言学中广为使用的马尔可夫模型(Markov model),是当代计算语言学最重要的理论支柱之一。,Markov,欧根奥涅金,A.Markov的研究,Markov把欧根奥涅金中的连续字母加以分类,把元音记为 V,把辅音记为 C,然后,以连续字母为统计单元进行计算,研究元音和辅音字母出现概率之间的相互影响。由于当时还没有计算机,也没有大规模的语料库,所以 ,Ma
12、rkov只得使用手工查频的方法,统计了由元音和辅音字母组成的三字母序列在欧根奥涅金中的出现次数,得到了俄语的元辅音序列表(其中N表示字母序列的记数,即Count Number)。,A.Markov的研究,A.Markov的研究,从这个表中可以看出,在统计文本的总字母出现次数(包括元音和辅音)为 20000 次,其中,元音字母出现 8038 次,辅音字母出现 11362 次;当元音字母之后为元音字母时,字母序列 VV 出现 1044 次;当元音字母之后出现辅音时,字母序列VC 出现 7534 次;当字母序列 VV 之后为元音字母时,字母序列 VVV 出现 115 次;当字母序列 VV 之后为辅音
13、字母时,字母序列 VVC出现 989 次; 等等。 根据上表中的数据,可以计算出有关元音字母和辅音字母出现的概率。,A.Markov的研究,上面的现象可以概括成随机过程加以研究。随机过程有两层含义:第一,它是一个时间的函数,随着时间的改变而改变;第二,每个时刻上的函数值是不确定的,是随机的,也就是说,每一时刻上的函数值按照一定的概率而分布。在我们写文章或讲话的时候,每一个字母(或音素)的出现随着时间的改变而改变,是时间的函数,而在每一时刻上出现什么字母(或音素)则有一定的概率性,是随机的,因此,我们可以把语言的使用看成一个随机过程。在这个随机过程中,所出现的语言符号是随机试验的结局,语言就是一
14、系列具有不同随机试验结局的链。,Turing的研究,在计算机出现以前,英国数学家A. M. Turing(图灵)就预见到未来的计算机将会对自然语言研究提出新的问题。,Turing的研究,1936年,Turing向伦敦权威的数学杂志投了一篇论文,题为论可计算数及其在判定问题中的应用。在这篇开创性的论文中,Turing给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turing Machine)的数学模型。“图灵机”不是一种具体的机器,而是一种抽象的数学模型,可制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。1950年10月,Turing在机器能思维吗一
15、文中指出:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。”,图灵测试(Turing Test),图灵测试,图灵采用“问”与“答”模式,即观察者通过控制打字机向两个测试对象通话,其中一个是人,另一个是机器。要求观察者不断提出各种问题,从而辨别回答者是人还是机器。图灵还为这项测试亲自拟定了几
16、个示范性问题: 问: 请给我写出有关“第四号桥”主题的十四行诗。 答:不要问我这道题,我从来不会写诗。 问:34957加70764等于多少? 答:(停30秒后)105721,图灵测试,问:你会下国际象棋吗? 答:是的。 问:我在我的K1处有棋子K;你仅在K6处有棋子K,在R1处有棋子R。现在轮到你走,你应该下那步棋? 答:(停15秒钟后)棋子R走到R8处,将军!,图灵测试,图灵指出:“如果机器在某些现实的条件下,能够非常好地模仿人回答问题,以至提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。” 从表面上看,要使机器回答按一定范围提出的问题似乎没有什么困难,可以通过编制特殊
17、的程序来实现。然而,如果提问者并不遵循常规标准,编制回答的程序是极其困难的事情。,图灵测试,问:你会下国际象棋吗? 答:是的。 问:你会下国际象棋吗? 答:是的。 问:请再次回答,你会下国际象棋吗? 答:是的。 你多半会想到,面前的这位是一部笨机器。,图灵测试,问: 你会下国际象棋吗? 答:是的。 问:你会下国际象棋吗? 答:是的,我不是已经说过了吗? 问:请再次回答,你会下国际象棋吗? 答:你烦不烦,干嘛老提同样的问题。 你面前的这位测试对象,大概是人而不是机器。,图灵测试,上述两种对话的区别在于,第一种可明显地感到回答者是从知识库里提取简单的答案,第二种则具有分析综合的能力,回答者知道观察
18、者在反复提出同样的问题。 “图灵测试”没有规定问题的范围和提问的标准,如果想要制造出能通过试验的机器,以我们现在的技术水平,必须在电脑中储存人类所有可以想到的问题,储存对这些问题的所有合乎常理的回答,并且还需要理智地作出选择。,Shannon的研究,1948年,美国学者Shannon(香农)使用离散马尔可夫过程的概率模型来描述语言的自动机。Shannon的另一个贡献是创立了“信息论”(Information Theory)。他把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道”(noisy channel)或者“解码”(decoding)。 Shannon还借用热力学的术语“
19、熵”(entropy)来作为测量信道的信息能力或者语言的信息量的一种方法,并且他用概率技术首次测定了英语的熵。,Shannon,Chomsky的研究,1956年,美国语言学家N. Chomsky(乔姆斯基)从Shannon的工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了“形式语言理论”(formal language theory)这样的研究领域,采用代数和集合论把形式语言定义为符号的序列。 Chomsky在研究自然语言的时候首先提出了“上下文无关语法”(Context-fre
20、e Grammar),后来,Backus和 Naur等在描述ALGOL程序语言的工作中,分别于1959年和1960年也独立地发现了这种上下文无关语法。这些研究都把数学、计算机科学与语言学巧妙地结合起来。,Chomsky,Chomsky和冯志伟,世界主要语言使用人数的百分比,复杂多彩的语言,一般普通英语词典收录的最长单词是pneumonoultramicroscopicsilicovolcanoconiosis(一种疾病), 新西兰的一座山叫Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakit
21、anatahul, 目前已知的最大的蛋白质叫Methionylthreonylthreonyl.isoleucine(189819个字母)。,程序语言也是语言,“机械脑”,本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多
22、种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。要查询的词项也利用键盘打孔来表示,检索一个词项的时间大约时十到十五秒。 阿尔楚尼的原型机于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。,苏联发明家特洛扬斯基,1933年,苏联发明家特洛扬斯基()设计了用机械方法把一种语言翻译为另一种语言的机器,并在同年9月5日登记了他的发明。特洛扬斯基认为翻译可以分为三个阶段。 第一个阶段由只懂源语言的编辑,将输入的原文分析成特定的逻辑形式,将带有屈折词尾的变形词还原成原形词,并分析出各个单
23、词的句法功能,为此,他创造了一套逻辑分析符号。 第二阶段是利用他的翻译机,把源语言的原形词和逻辑符号转换成目标语言的原形词和符号。 第三阶段由只懂目标语言的编辑,把目标语言的原形词和符号转换成目标语言。,第一台电子计算机ENIAC,1946年,美国宾夕法尼亚大学的埃克特(J. P. Eckert)和莫希莱(J.W.Mauchly)设计并制造出了世界上第一台电子计算机ENIAC,电子计算机惊人的运算速度,启示着人们考虑翻译技术的革新问题。,韦弗(W.Weaver),因此,在电子计算机问世的同一年,英国工程师布斯(A.D.Booth)和美国洛克菲勒基金会副总裁韦弗(W.Weaver)在讨论电子计算
24、机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。1947年3月6日,布斯与韦弗在纽约的洛克菲勒中心会面,韦弗提出,“如果将计算机用在非数值计算方面,是比较有希望的”。在韦弗与布斯会面之前,韦弗在1947年3月4日给控制论学者维纳(N. Wiener)写信,讨论了机器翻译的问题,韦弗说:“我怀疑是否真的建造不出一部能够作翻译的计算机?即使只能翻译科学性的文章(在语义上问题较少),或是翻译出来的结果不怎么优雅(但能够理解),对我而言都值得一试。”可是,维纳给韦弗泼了一瓢冷水,他在4月30日给韦弗的回信中写道:“老实说,恐怕每一种语言的词汇,范围都相当模糊;而其中表示的感情和言外之意,要以
25、类似机器翻译的方法来处理,恐怕不是很乐观的。”不过韦弗仍然坚持自己的意见。,W.Weaver,以翻译为题的备忘录,1949年,韦弗发表了一份以翻译为题的备忘录,正式提出了机器翻译问题。在这份备忘录中,他除了提出各种语言都有许多共同的特征这一论点之外,还有两点值得我们注意:第一,他认为翻译类似于解读密码的过程。他说:“当我阅读一篇用汉语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。” 韦弗认为可以用解读密码的办法来进行机器翻译。第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着,从语
26、言A出发,经过某一“通用语言” ( Universal Language)或“中间语言”(Interlingua),然后转换为语言B,这种“通用语言”或“中间语言”,可以假定是全人类共同的。,翻译是解读密码的过程,Warren Weaver (1947)zwf.ppt Parallel corpus-based MT.ppt,翻译类似于解读密码,早在1949年,韦弗(Weaver)在他的以翻译为题的备忘录中,就提出了使用解读密码的方法来进行机器翻译。 他说:“当我阅读一篇用汉语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进
27、行解码。”他的这段话非常重要,广为流传,我们把英文原文写在下面:,翻译类似于解读密码,“I have a text in front of me which is written in Chinese but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information containe
28、d in the text.”,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,翻译类似于解读密码,这段话中。韦弗首先提出了用解读密码的方法进行机器翻译的想法,这种想法成为后来噪声信道理论的滥觞。 备忘录中还记载了一个有趣的故事,布朗大学数学系的吉尔曼(R. E. Gilmam)曾经解读了一篇长约一百个词的土耳其文密码,而他既不懂土耳其文,也不知道这篇密码是用土耳其文写的。韦弗认为,吉尔曼的成功足以证明解读密码的技巧和能力不受语言的影响,因而可
29、以用解读密码的办法来进行机器翻译。,Rosetta石碑-最早的多语并行语料库,Rosetta石碑的历史和性质,历史 公元前196年制作 公元1799年被发现 公元1802年起保存于大英博物馆 埃及法老托勒密五世(Ptolemy V)的诏书 上部:埃及象形文字(Egyptian Hieroglyphs) 中部:埃及通俗文字(Egyptian Demotic),也就是埃及象形文字的草书 底部:古希腊文(Ancient Greek),Rosetta石碑,Rosetta石碑全貌,Rosetta石碑细部,Centauri语Arcturan语,Centauri语和Arcturan语是两种不同的美洲印第安语
30、,如果我们要使用解密码的方法把Centauri语翻译成Arcturan语,我们可以建立如下的双语并行语料库。 在这个并行语料库中,有12对彼此对齐了的句子,a表示Centauri语的句子,b表示与之对应的Arcturan语句子。,Centauri语Arcturan语,我们有Centauti语的句子farok crrrok hihok yorok clok kantok ok-yurp怎样把这个句子翻译成Arcturan语呢?,Centauri语Arcturan语,韦弗看法的不足和贡献,韦弗把机器翻译仅仅看成一种机械的解读密码的过程,他远远没有看到机器翻译在词法分析、句法分析以及语义分析等方面的
31、复杂性。 韦弗的卓越思想成为了而后统计机器翻译(Statistic Machine Translation,简称SMT)的理论基础。,机器翻译出现热潮,由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。1954年,美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。,第一次机器翻译试验的设计者Hurd, Dostert和Watson,语言学家Garvin提出了“支点分析法”(fulcrum analysis),第一次机器翻
32、译使用的计算机,第一次机器翻译在键盘上使用穿孔卡片输入,第一次机器翻译使用光电管读入数据,第一次机器翻译的程序流程图,穿孔卡片上的数据样本,第一次机器翻译的词典,第一次机器翻译在宽行打印机上输出英文,纽约时报的报道,在1954年1月7日向公众表演的时候,他们把俄语句子用英文字母进行转写,使用穿孔卡片输入数据,这样,就可以便于不懂俄语的操作员进行操作了。 第二天纽约时报(New York Times, 1954年1月8日)标题为翻译者701(701 translator) 做了报道。,纽约时报的报道(英文原文),In the demonstration, a girl operator type
33、d out on a keyboard the following Russian text in English characters: “Mi pyeryedayem mislyi posryedstvom ryechi”( ). The machine printed a translation almost simultaneously: “We transmit thoughts by means of speech.” The operator did not know Russian. Again she types out the meaningless (to her) Ru
34、ssian words: “Vyelyichyina ugla opryedyelyayatsya otnoshyenyiyem dlyini dugi k radyiusu.” ( ) And the machine translated it as: “Magnitude of angle is determined by the relation of length of arc to radius.” (New York Times, January 8, 1954),纽约时报的报道(中文译文),在演示时,一个女操作员在键盘上使用穿孔卡片输入转写成英文字母的俄语句子“Mi pyerye
35、dayem mislyi posryedstvom ryechi”,尽管她对于俄语一无所知,可是聪明的计算机很快就输出了英语译文“We transmit thoughts by means of speech.”接着,她又在键盘上使用穿孔卡片输入她完全不懂的另一个俄语句子“Vyelyichyina ugla opryedyelyayatsya otnoshyenyiyem dlyini dugi k radyiusu.” ( ),计算机几乎同时就输出了相应的英语译文“Magnitude of angle is determined by the relation of length of ar
36、c to radius.”(纽约时报,New York Times,1954年1月8日),保守份子的攻击,第一次机器翻译取得了很大的成功。但是,很快就受到了保守份子的攻击。 1962年8月号的哈泼杂志(Harpers Magazine)发表了古温豪芬(John A. Kouwenhoven)的题为翻译的困扰(“The trouble with translation”)的文章,文章中编造了如下的故事: 有几个电子工程师设计了一部自动翻译机,这部机器的词典包含1 500个基础英语词汇和相对应的俄语词汇。他们宣称这部机器可以马上进行翻译,而且不会犯人工翻译的错误。第一次试验时,观众要求翻译“Out
37、 of sight, out of mind”(眼不见心不烦)这个句子,灯光一阵闪动之后,翻译出来的俄语句子的意思竟然是“看不见的疯子”(Invisible idiot)。他们觉得这样的谚语式的句子比较难以翻译,于是又给机器翻译系统翻译另一个出自圣经的句子“The spirit is willing, but the flesh is weak”(心有余而力不足),机器翻译出来的俄语句子的意思却是“酒保存得很好,但肉已经腐烂”(The liquor is holding out all right, but the meat has spoiled)。,凭空捏造的谎言,这样的故事显然是凭空捏造
38、的,其情节与我们在前面1.2节中介绍的情节大同小异,只是年代有些不同。但是,我们知道,当时美国只研究过把俄语翻译成英语的机器翻译系统,根本没有研究过把英语翻译为俄语的机器翻译系统。这说明文章作者对于美国机器翻译的历史一无所知。尽管这是无中生有编造出来的虚假故事,但是,从中我们可以感觉到当时美国的许多人对机器翻译强烈的不满情绪。,computational linguistics术语的出现,1952年,在美国的MIT召开了第一次机器翻译会议,在1954年,出版了第一本机器翻译的杂志,这个杂志的名称就叫做Machine Translation(机器翻译)。尽管人们自然语言的计算方面进行了很多的研究
39、工作,但是,直到20世纪60年代中期,才出现了computational linguistics(计算语言学)这个术语,而且,在刚开始的时候,这是术语是偷偷摸摸地、羞羞涩涩地出现的。,“千呼万唤始出来,犹抱琵琶半遮面”,1965年Machine Translation杂志改名为Machine Translation and Computational Linguistics(机器翻译和计算语言学)杂志,在杂志的封面上,首次出现了“Computational Linguistics”这样的字眼,但是,“and Computational Linguistics”这三个单词是用特别小号的字母排印的
40、。这说明,人们对于“计算语言学”是否能够算为一门真正的独立的学科还没有把握。计算语言学刚刚登上学术这个庄严的殿堂的时候,还带有“千呼万唤始出来,犹抱琵琶半遮面”那样的羞涩,以致于人们不敢用Machine Translation同样大小的字母来排印它。 当时Machine Translation杂志之所以改名,是因为在1962年美国成立了“机器翻译和计算语言学学会”(Association for machine Translation and Computational Linguistics),通过改名可以使杂志的名称与学会的名称保持一致。,计算语言学出现时还带着“少女般的羞涩”,根据这些史
41、料,我们认为,远在1962年,就出现了“计算语言学”这个学科了,尽管它在刚出现的时候还是偷偷摸摸的,显示出少女般的羞涩。但是,无论如何,计算语言学这个新兴的学科终于萌芽了,她破土而出,悄悄地登上了学术的殿堂。,ALPAC报告,1964年,美国科学院成立了语言自动处理谘询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),调查机器翻译的研究情况,并于1966年11月公布了一个题为语言与机器的报告,简称ALPAC报告 ALPAC, Language and machines: computer in translatio
42、n and linguistics, A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council, Publication 1416, Washington. 。 这个报告对机器翻译采取了否定的态度,报告宣称:“在目前给机器翻译以大力支持还没有多少理由”;这个报告还指出,机器翻译研究遇到了难以克服的“语义障碍”(semantic barrier)。
43、在ALPAC报告的影响下,许多国家的机器翻译研究低潮,许多已经建立起来的机器翻译研究单位遇到了行政上和经费上的困难,在世界范围内,机器翻译的热潮突然消失了,出现了空前萧条的局面。,David Hays的功劳,美国语言学家David Hays是ALPAC委员会的成员之一,他参与起草了ALPAC报告,在ALPAC报告中,他建议,在放弃机器翻译这个短期的工程项目的时候,应当加强语言和自然语言计算机处理的基础研究,可以把原来用于机器翻译研制的经费使用到自然语言处理的基础研究方面,David Hays把这样的基础研究正式命名为Computational Linguistics(计算语言学)。 所以,我们
44、可以说,“计算语言学”这个学科名称最早出现于1962年,而在1966年才在美国科学院的ALPAC报告中正式得到学术界的承认。,三,计算语言学的发展期,20世纪60年代中期到80年代末期,20世纪60年代中期到80年代末期是计算语言学的发展期。在计算语言学的发展期,各个相关学科的彼此协作,联合攻关,取得了一些令人振奋的成绩。,两支队伍,统计方法在语音识别算法的研制中取得成功。其中特别重要的是“隐马尔可夫模型”(Hidden Markov Model)和“噪声信道与解码模型”(Noisy channel model and decoding model)。这些模型是分别独立地由两支队伍研制的。 一
45、支是Jelinek,Bahl,Mercer和IBM的华生研究中心的研究人员。 另一支是卡内基梅隆大学(Carnegie Mellon University)的Baker等,Baker受到普林斯顿防护分析研究所的Baum和他的同事们的工作的影响。 AT&T的贝尔实验室(Bell laboratories)也是语音识别和语音合成的中心之一。,逻辑方法,逻辑方法在计算语言学中取得了很好的成绩。 1970年,Colmerauer和他的同事们使用逻辑方法研制了Q 系统(Q-system)和“变形语法”(metamorphosis grammar)并在机器翻译中得到应用,Colmerauer还是 Prol
46、og语言的先驱者,他使用逻辑程序设计的思想设计了Prolog语言。 1980年Pereira 和Warren提出的“定子句语法”(Definite Clause Grammar)也是在计算语言学中使用逻辑方法的成功范例之一。 1979年Kay对于“功能语法”(functional grammar)的研究,1982年Bresnan和Kaplan在“词汇功能语法”(Lexical Function Grammar,简称LFG)方面的工作,都是特征结构合一(feature structure unification)研究方面的重要成果,他们的研究引入了“复杂特征”(complex feature)的
47、概念。,“多叉多标记树形图模型”,我国学者冯志伟提出了“多叉多标记树形图模型”(Multiple-branched Multiple-labeled Tree Model,简称 MMT模型) 冯志伟,汉语句子的多叉多标记树形图分析法,人工智能学报,1983年,第2期。,在他设计的多语言机器翻译FAJRA( 英语、法语、日语、俄语、德语的法文首字母缩写)系统中,采用了“多标记”(Multiple label)的概念。“多标记”的概念与“复杂特征”的概念实质上是一致的,这些关于自然语言特征结构研究成果,都有效地克服了Chomsky短语结构语法的生成能力过强的缺陷。,汉法/英/日/俄/德多语言机器翻
48、译试验,根据多叉多标记树形图分析法,冯志伟在法国格勒诺布尔理科医科大学自动翻译研究中心CETA进行了汉法/英/日/俄/德多语言机器翻译试验,建立了FAJRA系统,在世界上首次把汉语用计算机自动地翻译成法、英、日、俄、德五种不同的外语,取得了一定的成效。,汉法/英/日/俄/德多语言机器翻译试验,汉语输入: November1981语言和通讯在人类的生活中起着重要的作用。学者们正在积极地研究语言的自动翻译。他们提出了自动机的理论和形式语言的理论。自动机是能够识别语言的一种抽象机器。语言的规则能够把一个树形图自动地转换成另一个树形图。这个自动翻译系统已经被他们使用了五年。如果我们把这个系统同其他一些
49、系统相比较,就可以看出它的优点。,汉法/英/日/俄/德多语言机器翻译试验,汉法/英/日/俄/德多语言机器翻译试验,汉法/英/日/俄/德多语言机器翻译试验,汉法/英/日/俄/德多语言机器翻译试验,汉法/英/日/俄/德多语言机器翻译试验,汉法/英/日/俄/德多语言机器翻译试验,SHRDLU系统,在这个时期,自然语言理解(natural language understanding)也取得明显的成绩。自然语言理解肇始于Terry Winograd在1972年研制的SHRDLU系统,这个系统能够模拟一个嵌入玩具积木世界的机器人的行为。该系统的程序能够接受自然语言的书面指令(例如,“Move the red block on top of the smaller green one”请把绿色的小积木块移动到红色积木块的上端),从而指挥机器人摆弄玩具积木块。这是一个非常复杂而精妙的系统。 这个系统还首次尝试建立基于Halliday系统语法(systemic grammar)的全面的英语语法。Winograd的模型还清楚地说明,句法剖析也应该重视语义和话语的模型。,