1、机器翻译原理与方法第二讲 机器翻译方法概述中国科学院计算技术研究所 2009年秋季课程刘群中国科学院计算技术研究所2机器翻译原理与方法 (02) 机器翻译方法概述内容提要 机器翻译方法(按转换层面划分) 直接翻译方法 句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法3机器翻译原理与方法 (02) 机器翻译方法概述按转换层面划分的机器翻译方法源语言目标语言中间语言直接翻译句法转换语义转换形态分析 形态生成句法分析 句法生成语义分析 语义生成4机器翻译原理与方法 (02) 机器翻译方法概述内容提要 机
2、器翻译方法(按转换层面划分) 直接翻译方法 句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法5机器翻译原理与方法 (02) 机器翻译方法概述直接翻译方法 通过词语翻译、插入、删除和局部的词序调整来实现翻译,不进行深层次的句法和语义的分析,但可以采用一些统计方法对词语和词类序列进行分析 早期机器翻译系统常用的方法,后来 IBM提出的统计机器翻译模型也可以认为是采用了这一范式 著名的机器翻译系统 Systran早期也是采用这种方法,后来逐步引入了一些句法和语义分析6机器翻译原理与方法 (02) 机器翻
3、译方法概述内容提要 机器翻译方法(按转换层面划分) 直接翻译方法 句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法7机器翻译原理与方法 (02) 机器翻译方法概述转换方法 (1) 整个翻译过程分为 “分析” 、“ 转换 ”、“ 生成 ”三个阶段; 分析:源语言句子 源语言深层结构 相关分析:分析时考虑目标语言的特点 独立分析:分析过程与目标语言无关 转换:源语言深层结构 目标语言深层结构 生成:目标语言深层结构 目标语言句子 相关生成:生成时考虑源语言的特点 独立生成:生成过程与源语言无关8机器翻
4、译原理与方法 (02) 机器翻译方法概述转换方法 (2) 理想的转换方法应该做到独立分析和独立生成,这样在进行多语言机器翻译的时候可以大大减少分析和生成的工作量; 转换方法根据深层结构所处的层面可分为: 句法层转换:深层结构主要是句法信息 语义层转换:深层结构主要是语义信息 分析深度的权衡 分析的层次越深,歧义排除就越充分 分析的层次越深,错误率也越高9机器翻译原理与方法 (02) 机器翻译方法概述转换方法 (3)形态生成源文结构源文词串源文句子译文结构结构转换结构分析基于转换方法的翻译流程结构生成形态分析译文词串译文句子词语转换10机器翻译原理与方法 (02) 机器翻译方法概述句法层面的转换
5、方法 (1)她把一束花放在桌上。She put a bunch of flowers on the table.她/r 把/p-q-v-n 一/m-d 束/q 花/n-v-a 放/v 在/p-d-v 桌/n 上/f-v 。/w她/r 把/p 一/m-d 束/q 花/n 放/v 在/p-v 桌/n 上/f-v 。/w切分标注标注排歧11机器翻译原理与方法 (02) 机器翻译方法概述句法层面的转换方法 (2)句法分析她/r 把/p 一/m-d 束/q 花/n 放/v 在/p-v 桌/n 上/f-v 。/w她zjdjvp。vppp放ps上桌在pppnpmpn一束花把n12机器翻译原理与方法 (02)
6、 机器翻译方法概述句法层面的转换方法 (3)R/她NP/npSS/zjCS/djVP/vpVP/vpNP/ppPP/ppV/放#/pPP/spP/上N/桌#/p NP/npNP/mpP/#NP/npT/一N/束 ofN/花W/。她zjdjvp。vppp放ps上桌在pppnpmpn一束花把n句法结构转换13机器翻译原理与方法 (02) 机器翻译方法概述句法层面的转换方法 (4)N/她NP/npSS/zjCS/djVP/vpVP/vpNP/ppPP/ppV/放#/pPP/spP/上N/桌#/p NP/npNP/mpP/#NP/npT/一N/束 ofN/花W/。N/她NP/npSS/zjCS/djV
7、P/vpVP/vpV/放W/。NP/pp#/p NP/npNP/mpP/#NP/npT/一N/束 ofN/花PP/pp#/pPP/spP/上N/桌句法结构生成14机器翻译原理与方法 (02) 机器翻译方法概述句法层面的转换方法 (5)She puts a bunch of flowers on table .N/她NP/npSS/zjCS/djVP/vpVP/vpW/。V/放NP/pp#/p NP/npNP/mpP/#NP/npT/一N/束of N/花PP/pp#/pPP/spP/上 N/桌词语转换与词语生成15机器翻译原理与方法 (02) 机器翻译方法概述内容提要 机器翻译方法(按转换层面划
8、分) 直接翻译方法 句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法16机器翻译原理与方法 (02) 机器翻译方法概述中间语言方法 (1) 利用一种中间语言( interlingua)作为翻译的中介表示形式; 整个翻译的过程分为 “分析 ”和“ 生成 ”两个阶段 分析:源语言 中间语言 生成:中间语言 目标语言 分析过程只与源语言有关,与目标语言无关 生成过程只与目标语言有关,与源语言无关17机器翻译原理与方法 (02) 机器翻译方法概述中间语言方法 (2) 中间语言方法的优点在于进行多语种翻译的
9、时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为2*n ,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为n*(n-1)18机器翻译原理与方法 (02) 机器翻译方法概述中间语言方法 (3)语言1 语言2语言4语言3中间语言中间语言方法语言1 语言2语言4语言3转换方法19机器翻译原理与方法 (02) 机器翻译方法概述中间语言方法 (4) 中间语言的类型 自然语言:如英语、汉语 人工语言:如世界语 某种知识表示形式:如语义网络 以某种知识表示形式作为中间语言的机器翻译方法有时也称为基于知识的机器翻译方法20机器翻译原理与方法 (02) 机器翻译
10、方法概述中间语言方法 (5) Makoto Nagao (Kyoto University) said: “ when the pivot language i.e. interlingua is used, the results of the analyticstage must be in a form which can be utilized by all of the different languages into which translation is to take place. This level of subtlety is a practical impossibi
11、lity.” (Machine Translation, Oxford, 1989) Patel-Schneider (METAL system) said: ”METAL employs a modified transfer approach rather than an interlingua. If a meta-language an interlingua were to be used for translation purposes, it would need to incorporate all possible features of many languages. Th
12、at would not only be an endless task but probably a fruitless one as well. Such a system would soon become unmanageable and perhaps collapse under its own weight.” (A four-valued semantics for terminological reasoning, Artificial Intelligence, 38, 1989)21机器翻译原理与方法 (02) 机器翻译方法概述中间语言方法 (6) 基于中间语言方法一般都
13、用于多语言的机器翻译系统中; 从实践看,采用某种人工定义的知识表示形式作为中间语言进行多语言机器翻译都不太成功,如日本主持的亚洲五国语言机器翻译系统,总体上是失败的; 在CSTAR 多国语口语机器翻译系统中,曾经采用了一种中间语言方法,其中间语言是一种语义表示形式,由于语音翻译都限制在非常狭窄的领域中(如机票预定),语义描述可以做到比较精确,因此采用中间语言方法有一定的合理性。 在统计机器翻译中,很多研究人员开始采用某种自然语言作为中间语言(这时又称 “枢纽语言 ”,或 Pivot Language),枢纽语言目前以英语为主,主要原因是英语到其他语言的双语语料库比较容易获得,而其他语言直接的双
14、语语料库很难获得。22机器翻译原理与方法 (02) 机器翻译方法概述中间语言示例语义网络英语: He bought a book on physics.汉语:他买了一本关于物理学的书。#one#physics#book#buy#he施事 受事数量领域说明:这里 #后面表示的是概念,而不是英语词。23机器翻译原理与方法 (02) 机器翻译方法概述中间语言示例语义网络英语: He bought a book on physics.汉语:他买了一本关于物理学的书。谓词 概念#buy施事 概念概念数量领域#he受事#book#one#physics说明:这里 #后面表示的是概念,而不是英语词。24机器
15、翻译原理与方法 (02) 机器翻译方法概述中间语言示例概念词典概念 语义类 中文词 英文 格框架#he指代词获得出版物学科他数量#buy买hebuybookphysics施事,受事#book书one#physics物理#one一25机器翻译原理与方法 (02) 机器翻译方法概述内容提要 机器翻译方法(按转换层面划分) 直接翻译方法 句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法26机器翻译原理与方法 (02) 机器翻译方法概述按知识表示划分的机器翻译方法 基于规则的机器翻译方法 基于实例的机器翻
16、译方法 基于翻译记忆的机器翻译方法 基于模板(模式)的机器翻译方法 基于统计的机器翻译方法27机器翻译原理与方法 (02) 机器翻译方法概述内容提要 机器翻译方法(按转换层面划分) 直接翻译方法 句法转换方法 语义转换方法 中间语言方法 机器翻译方法(按知识表示形式划分) 基于规则的方法 基于实例的方法(含模板方法、翻译记忆方法) 统计方法28机器翻译原理与方法 (02) 机器翻译方法概述基于规则的方法 (1) 采用规则作为知识表示形式 重叠词规则 切分规则 标注规则 句法分析规则 语义分析规则 结构转换规则(产生译文句法语义结构) 词语转换规则(译词选择) 结构生成规则(译文结构调整) 词语
17、生成规则(译文词形生成)29机器翻译原理与方法 (02) 机器翻译方法概述基于规则的方法 (2) 优点 直观,能够直接表达语言学家的知识 规则的颗粒度具有很大的可伸缩性大颗粒度的规则具有很强的概括能力小颗粒度的规则具有精细的描述能力 便于处理复杂的结构和进行深层次的理解,如解决长距离依赖问题 系统适应性强,不依赖于具体的训练语料30机器翻译原理与方法 (02) 机器翻译方法概述基于规则的方法 (3) 缺点 规则主观因素重,有时与客观事实有一定差距 规则的覆盖性差,特别是细颗粒度的规则很难总结得比较全面 规则之间的冲突没有好的解决办法(翘翘板现象) 规则一般只局限于某一个具体的系统,规则库开发成本太高 规则库的调试极其枯燥乏味