英汉翻译模板的标准化方案及其应用.doc

上传人：精品资料

文档编号：8558064

上传时间：2019-07-03

格式：DOC

页数：5

大小：80KB

下载提示：本站仅提供存储空间/不修改/不编辑

1.请仔细阅读文档，确保文档完整性，对于不预览、不比对内容而直接下载带来的问题本站不予受理。
2.下载的文档，不会出现我们的网址水印。
3、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

文档包含非法信息？点此举报后获取现金奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

最后一页预览完了！喜欢就下载吧，查找使用更方便

10 文币 0人已下载

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 英汉翻译模板的标准化方案及其应用.doc

资源描述：: 1、英汉翻译模板的标准化方案及其应用摘要：在机器翻译系统中，模板可以作为一种知识表示的方法，其规模的大小和组织的策略将极大地影响系统的整体性能。本文对英汉翻译模板的标准化问题进行了探讨，提出了一个初步方案，并将其应用于英汉翻译系统的设计与实现中，取得了初步的成功，验证了该方案的可行性，从而为在大规模模板库的基础上开发高质量的英汉翻译系统提供了可能性。在 2005 年举行的 863 评测中，本文开发的英汉翻译系统达到的水平：对话翻译人工评测忠实度和流利度分别为 73.62 和 68.16 篇章翻译人工评测忠实度和流利度分别为 41.16 和 31.45。关键词：机器翻译；翻译模板；标准化A Stan
2、dardization Strategy of English-Chinese Translation Templates and Its ApplicationsAbstract: In machine translation systems, templates can be used as a knowledge representation method, their scale and organization will greatly influence the whole systems performance. This paper studies the standardiz
3、ation problem of English-Chinese translation templates and presents an initial strategy for it. By applying it to design and implement a somewhat successfulEnglish-Chinese translation system, we showthat the strategy is useful and practicable, and it provides possibilities to develop high-quality En
4、glish-Chinese translation systems based on a large scale of template library. In the “863” evaluation of 2005, the English-Chinese translation system of this paper reaches scores of 73.62 Adeq and 68.16 Fleu for “dialog test” as well as 41.16 Adeq and 31.45 Fleu for “article test”.Keywords: machine
5、translation, translation template, standardization1. 引言现有的机器翻译方法主要分为基于规则1-4、基于统计5-11和基于例子12-14这三种。但是由于自然语言的极端复杂性，目前还没有一种分析策略能够彻底解决机器翻译系统所涉及的各种难题。为了综合利用这三种方法的优点，同时克服各自所存在的问题，一种常用办法是把多种翻译策略有机地集成在一起，以实现各种策略之间的优势互补，改善系统的性能15-17。在机器翻译的研究中，除了综合集成多种策略外，另一种重要方法是加大处理粒度18，其基本思想是利用单义的语块（Chunk）代替多义的单词，并给以中心词的标注
6、，目的是为了简化处理的句型，化解机器翻译的歧义问题。基于语块的方法是近年来在自然语言领域兴起的一条新思路19，目前关于单语语块的研究已经取得大量成果21-24。一个可以代替Chunk进行机器翻译的概念是模板（ Template）。简单的说，模板可以看作是一个带有变量的Chunk，而Chunk则可以看作一种不带变量的模板。用模板代替 Chunk，可以使很多Chunk合并成一个模板，因此模板在语料库中出现的频率要比作为其特例的Chunk大。所以，为了刻划一个语料库中的语言现象，所需要的模板数量将远远少于所需要的Chunk数量，虽然一个模板具有的歧义可能要比一个Chunk的歧义多，但是常常可以消解
7、模板中单个词的多种歧义。本文讨论了模板的定义，对英汉翻译模板的标准化问题进行了探讨，同时提出了一个初步方案，并通过结合句法分析技术和模板匹配替换通用算法将其应用于英汉翻译系统的设计与实现中，取得了初步的成功，验证了该方案的可行性，从而为在大规模英汉翻译模板库的基础上开发高质量的英汉翻译系统提供了可能性。2. 模板的定义和说明在各种自然语言中都存在许多被反复使用的模板结构，抽象地说，模板可以看作具有一定稳定性的语言认知结构。每个模板结构通常由若干常项和变项所组成，比如，英文词组“give sth. to sb.”就是一种模板结构，单词“give”和“to ”是常项， “sth.”和“sb. ”是
8、变项。当一个模板中的所有变项被其所能取到的常项值替代时所得到的单词序列称为该模板的一个实例。例如， “give the book to me”就是“givesth. to sb.”的一个实例。为了概念的统一起见，本文也把某些不带变项的特殊词组或句子称为模板。从形式语言学的角度看，模板中的常项就是终结符，模板中的变项就是非终结符。一个源语言模板(ST, Source Template)常常在另一种语言中存在着对应的目标语言模板 (TT, Target Template)，源语言模板和目标语言模板构成的有序对“STTT”通常称为翻译模板。在传统的翻译模板概念中，通常要求一个源语言模板只能有一个目标
9、语言模板，而且源语言模板的非终结符和目标语言模板的非终结符必须一一对应，个数相等，一般也不考虑模板的类别标注问题。这里则把翻译模板定义为源语言模板及其在目标语言中所有可能目标模板的集合。因此，如果考虑模板的类别标注且在每个类别标注下只允许一个目标翻译，那么从形式化的角度看，一个翻译模板可以参照下面的标准结构进行统一描述：Source TemplatePOS tag1.Target Template 1; POS tag2.Target Template 2; POS tagm.Target Template m;其中， “POS tag”表示类别标注的代码。如果使用形式语言的术语，那么每一个源
10、语言模板可以看作下面的结构：(str1)121 21 rriiii aVaVa显然，每一个相对应的目标语言模板亦可以写成：(str2)121 mjjjjj bUbb其中在符号串（str1）和（str2）中，有下面的约束：（1）是从小到大排列的任意 r+1 个整数，是源语言中的个终结符（可能是2,.rii 1,.2ria1ri空字符），是源语言中的 r 个非终结符，它们可以相同，也可以不同；rV.,1（2）是从小到大排列的任意 m+1 个整数，是目标语言中的个终结符,mjj 1,.1mjbmj（可能是空字符），是目标语言中的 m 个非终结符，它们可以相同，也可以不同；m,.
11、21（3）必须是中所出现的非终结符或者与中所出现的某个非终结符U,.21 r., rV,.2有某种确定性转换关系，m 和 r 可能不相等。根据上述模板的定义，一个具有两个类别标注的英汉模板例子描述如下：comment about NPvi.评论 NP;n.对 NP 的评论;其中， “NP”表示名词短语， “vi”表示不及物动词类型， “n”表示名词类型。如果不做特殊说明，下文所使用的词类标记与英语语法习惯相同。3. 英汉翻译模板的标准化方案及其应用由于前面关于翻译模板的定义不仅允许一个源语言模板可以有多个不同的对应目标语言模板，而且允许每个对应目标语言模板中的非终结符和源语言模板中的非终
12、结符之间存在一对多和多对一的关系，因而比传统的模板定义能够更加合理地反映实际的自然语言现象。此外，由于人类在一生中所能学习和建立的语言认知结构是相当有限的，所以可以想象与语言认知结构相联系的模板数目也是相当有限，虽然这个数目可能达到几万，几十万，甚至几百几千万，但是对建立大规模翻译模板库来说应该是一个有限合理的数字，并不是一个遥不可及的天文数字。有了足够的模板，就可以把给定的句子分析为源语言模板的组合，然后再利用通用模板匹配替换算法进行从源语言到目标语言的翻译25。然而要针对某两种语言建立起一个实际的大规模翻译模板库并非易事，制定细致可行的模板标准化方案是必不可少的步骤。下面将讨论一个建立英汉
13、翻译模板的初步标准化方案。首先，将英汉翻译模板根据其源语言部分分为静态模板和动态模板。静态模板是一些完全由终结符构成的词组，它们总是作为一个整体被使用，严格的说在任何上下文中都只有能具有这种固定的组合与搭配，不会因为上下文的变化而被分开成为不同的意义单元。比如：artificial intelligencen.人工智能;machine translation n.机器翻译;动态模板则是指静态模板以外的任何模板，也就是说它除了包括所有带有非终结符的模板之外，还包括那些用法随着上下文的不同有时可能被分开或者被重新组合的终结符词组。一个完全由终结符构成的动态模板例子如下：a littlepron.
14、一点;该模板之所以是动态模板，因为“a little”还可以组合成其他模板，比如：a little ADJadj.有点 ADJ;a little whilen.一会儿;显然，要从一个给定的英语句子中分析静态模板非常容易，因为静态模板在任何上下文中都可以被看作一个固定搭配的词组，所以采用简单的单词比较和匹配技术就能确定。但是，要确定英语句子使用了某个动态模板则不能简单地采用单词匹配和词性匹配的方法，通常需要使用句法分析技术才能在一般情况下得到较好的结果。目前较好的句法分析算法一般都具有较高的时间复杂度或者空间复杂度要求，如果同时启用所有的模板来进行分析，特别是在动态模板规模相当大时，就很难达到令
15、人满意的效率。因此，对动态模板进行分类、排序和索引以便根据需要来调用就是一个必不可少的步骤。考虑到句法分析的需要，本文提出了下面的关于如何组织大规模英汉翻译模板的初步标准化方案：（1）定义统一的模板类型以及相应的非终结符（目前使用了 70 个）；（2）将静态模板和动态模板分别存放在不同的数据库中；（3）根据前面两项是终结符还是非终结符的情况，将动态模板分成下面五类，分别用TT、TN、NT、NNT 和 NNN 表示，其中“TT”表示所有第 1 项和第 2 项都是终结符（即英语中的单词）的模板， “TN”表示所有第 1 项终结符而第 2 项是非终结符的模板， “NT”表示所有第 1 项是非
16、终结符而第 2 项是终结符的模板， “NNT”表示所有第 1 项和第 2 项是非终结符而第 3 项是终结符的模板， “NNN”则表示所有其它模板。（4）对 TT 类模板通过第 1 项和第 2 项排序并建立索引，对 TN 类模板通过第 1 项排序并建立索引，对 NT 类模板通过第 2 项排序并建立索引，对 NNT 类模板通过第 3 项排序并建立索引；NNN则可以不建立索引，因为这类模板的总数不大，即使全部用于进行句法分析对系统的整体效率影响也不大。根据上述英汉翻译模板标准化方案，结合句法分析技术和作者以前提出的模板匹配替换通用算法25，本文实现了一个模板型英汉翻译系统，目前总共大约包含 380
17、00 个词条和 21000 个模板（包括静态模板约 6400 条，动态模板约 14600 条），全部由手工输入建立。该系统首先利用输入句子中的终结符从静态模板库和五类动态模板库中检索可能出现的模板，检索的依据是模板中的所有常量必须同时按顺序（但可能不连续）在输入句子中出现；然后利用标准的 Earley 算法分析句子的模板嵌套结构26 ；最后通过模板匹配替换实现英语句子到汉语句子的翻译。整个模板型英汉翻译系统的框架由图 1 描述。在 2005 年举行的 863 评测中，该系统在开发集和测试集上目前达到的性能指标分别见表 1 和表 2。图 1. 模板型英汉翻译系统框图词法分析静态模板分析动态模板
18、分析句法分析模板匹配替换分析词典库静态模板库动态模板库输入英语句子输出翻译结果Earley 算法表 1. 系统在开发集上的评测结果测试内容 NIST BLEU GTM mWER mPER对话翻译 8.8004 0.5217 0.8124 0.3835 0.3041篇章翻译 9.8652 0.4757 0.8258 0.5841 0.3510表 2. 系统在测试集上的评测结果测试内容 NIST BLEU GTM mWER mPER Adeq Fleu对话翻译 6.8419 0.2913 0.7135 0.5853 0.4529 73.62 68.16篇章翻译 6.6745 0.2281 0.69
19、98 0.7236 0.4946 41.16 31.454. 结论本文的主要贡献在于提出了一种如何组织大规模英汉翻译模板的初步标准化方案，其重要意义在于该方案不仅可以用于培训专门的模板录入人员来组建大规模的英汉翻译模板库，而且可以用于研制专用软件来大幅度提高新增模板的自动分类和管理功能。虽然由于人力物力的限制，该方案目前只是取得了初步的成功，但是考虑到作者的翻译引擎设计是与模板库完全独立的，因此如果能够结合一些模板的自动抽取算法，同时加强对大规模模板库建设的投入，那么这一方案有望对机器翻译技术的发展产生重要的影响，以大规模模板库为基础的机器翻译技术也将再创新高。参考文献1 陈肇雄,高庆狮.智能
20、化英汉翻译系统 IMT/EC.中国科学 J, A(2),pp.187-194, 1989.2 D. Arnold and L. Sadler. Theoretical Basis of MiMo. Machine TranslationJ, Vol.5, No.3, pp.195-222,1990.3 M.T. Rosetta. Compositional TranslationM. Kluwer Academic Publishers, Dordrecht, The Netherlands, 1994.4 Koichi Takeda. Pattern-Based Context-Free G
21、rammars for Machine Translation. Proc. of 34th ACL C, pp. 144-151, June 1996.5 Peter F. Brown, J. Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, F. Jelinek, Robert L. Mercer, and P.S. Roossin. A statistical approach to machine translation. Computational Linguistics J, 1990, 16(2): 79-85.6
22、Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics J, 1993, 19(2): 263-311.7 W.A.Gale and K.W.Church. A Program for Aligning Sentences in Bilingual Corpora.Computation
23、al LinguisticsJ, Vol.19, No.1,pp.75-102, 1993.8 Dekai Wu. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora. Computational LinguisticsJ, Vol.23, No.3, pp.377-403, 1997.9 H. Alshawi, S. Bangalore and S. Douglas. Automatic Acquisition of Hierarchical transduction mod
24、els for machine translation. Proc. 36th Annual Conference on Computational LinguisticsC, Montreal, P.Q., Canada, August 1998, pp. 41-47.10 Franz Josef Och, Hermann Ney. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation. Proceedings of the 40th Annual Meeting of t
25、he Association forComputational Linguistics (ACL2002) C, Philadelphia, July 2002, pp. 295-302.11 刘群. 统计机器翻译综述. 中文信息学报 J, Vol. 17, No. 4, pp.1-12, 2003.12 M. Nagao. A Framework of a Mechanical Translation Between Japanese and English By Analogy Principle A.In: A. Elithorn and R. Banerji, editor, Arti
26、ficial and Human Intelligence. (North-Holland, Amsterdam, Netherlands) (1984) 173-180.13 S. Sato. MBT2: a method for combining fragments of examples in example-based translation.Artificial IntelligenceJ, Vol.75,pp.31-49, 1995.14 Harold Somers. Review Article: Example-based Machine Translation. Machi
27、ne Translation J, 14, pp.113-157, 1999.15 黄河燕, 陈肇雄,宋继平 .一种人机互动的多策略机器翻译系统 IHSMTS 的设计与实现原理.中文信息学报 J, Vol. 13, No. 5, pp.43-50, 1999.16 王建德, 陈肇雄, 黄河燕, 夏云庆. IHSMT 中的实例优化策略. 计算机研究与发展 J, Vol. 39, No. 3, pp. 313-317, 2002.17 黄河燕, 陈肇雄, 胡曾剑. IHSMTS 中实例模式获取机制的设计与实现. 计算机研究与发展 J, Vol. 39, No. 5, pp. 588-592, 20
28、02.18 姚天顺. 第 5 章自然语言处理与机器翻译 A. 见:世纪之交的知识工程与知识科学, 陆汝钤主编, 清华大学出版社, 2001. 19 程葳, 赵军, 徐波, 刘非凡. 一种面向汉英口语翻译的双语语块处理方法 . 中文信息学报 J, Vol. 17, No. 2, pp. 21-27, 2003.20 Steven Abney. Parsing by Chunks A. In: RobertBerwick, Steven Abney and Carol Tenny (eds.). Principle Based Paring. Kluwer Academic Publishers
29、, 1991.21 S. Abney. Partial parsing via finite-state cascades. Natural Language EngineeringJ, Vol.2, No.4, pp.337-344, 1996.22 Erik F., Tjong Kim Sang and Sabine Buchholz. Introduction to CoNLL 2000 Shared Task: Chunking A. In Proceedings of CoNLL 2000. Lisbon, Portugal, 2000, pp.127-132.23 周强, 孙茂松, 黄昌宁. 汉语句子的组块分析体系. 计算机学报 J, 1999, 22(11): 1158-1165.24 刘芳, 赵铁军, 于浩等. 基于统计的汉语组块分析. 中文信息学报 J, 2000, 14(6): 28-32.25 李玉鉴, 钟义信. 基于通用模板匹配替换方法的英汉翻译系统. 计算机工程与应用 J，2002，Vol.38, No.24, pp.24-27, 34.26 Jay Earley. An efficient context-free parsing algorithm. Communication of the ACM J, 1970, 13(2): 94-102.

展开阅读全文

道客多多所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：英汉翻译模板的标准化方案及其应用.doc
链接地址：https://www.docduoduo.com/p-8558064.html