1、双语语料库建设,从Tanslation Memory谈起 TM系统的目标 TM引擎的设计和实现 双语语料库的其它应用价值 语料库的编码和整理 双语语料库的对齐加工 双语语料库的展示和应用平台,Translation Memory,基于实例的机器翻译 TM技术 几个著名的TM系统TRADOS(ATRIL) Dj Vu(STAR) transit TM技术的局限性,TM系统的目标,协助人工翻译而非取代人工翻译 提高人工翻译的生产率(productivity) 提高人工译文的一致性(consistency) 提供一个翻译集成环境面向整个翻译过程、翻译项目的定义和管理、翻译进度管理协助翻译协作、拼写和
2、语法检查文件格式支持、文本编辑、辅助双语索引、自学习机制(句子对齐和术语获取),TM引擎的实现,1) 基于句子的精确匹配(Exact match) 2) 基于句子的模糊匹配(Fuzzy match)基于词替换的模糊匹配基于动态规划的模糊匹配,模糊匹配的基本思想,基本思想:找出输入句子和实例中共同的单词,对不同的词利用词典进行翻译。提供quick and dirty translation 例子:E: 美国 国务卿 奥尔布赖特 今天 起 访问 韩国 。S: 美国 国务卿 鲍威尔 明 起 访问 日本 。 所有相同的词必须顺序一致“兔子 吃 白菜” 和 “白菜 吃 兔子” 翻译不一样。 动态规划算法
3、LCS,模糊匹配的基本思想,计算实例和输入的相似度生成转换表达式(如何把例子转换成输入) C(美国 国务卿) r(奥尔布赖特 今天,鲍威尔 明) c(起 访问) r(韩国, 日本) 在实例的汉语部分和英语部分之间进行词汇一级对齐(利用双语词典) 对实例的英语部分进行和汉语部分同样的转换,生成英语(利用双语词典),试验(张牧),实例库中有实例33367个,另取162个测试句子 相似度分布0-0.3 30.3-0.4 150.4-0.5 500.5-0.6 470.6-0.7 230.7-0.8 180.8-0.9 30.9-1 2,分析,优点简单,仅需要一部双语词典,仅需要对汉语切词,此外无需任
4、何处理 缺点高相似度命中率低 如果例子多一点,领域窄一点,可能很有用,双语语料库的其它应用价值,1) 基于规则的机器翻译,翻译知识获取 2) 基于统计的机器翻译,训练翻译模型 3) 基于双语语料库的双语词典编纂 4) 基于双语语料库的术语提取 5) 双语教学和语言学研究双语语料库建设为机器翻译研究服务,同时兼顾其它应用类型,双语语料库建设的三个层次,1) 语料库收集、整理和编码 2) 语料库对齐和加工 3) 语料库的呈现和应用,语料库整理,语料的存放方式各异 语料的文件格式不同 语料中有不利于加工的噪音信息 语料的文体、领域、语式、创作时期不同 ,整理目标,1) 格式统一; 2) 篇章级对齐;
5、 3) 消除噪音信息;,语料库编码,CES和TEI(基于SGML),很复杂 我们也曾经提出一个基于XML的编码方案,基于XML的编码方案,(1)标记文本结构 (2)标记切词、词性等 (3)各个层级的对齐关系,4个DTD说明,简化的编码,辅助的语料库编码工具,语料的属性信息,很简单1) 源语言2) 文体3) 领域4) 语式6) 时代,对齐加工,1)基于长度的段落对齐 2)基于长度的句子对齐,语料样例,原文文件:DongYuanXinBingJi.zh动员新兵及新兵政治工作 (一九三八年一月十二日)一 当前的战局,是处于暂时的局部的失利的境况,决不是抗日自卫战争的最后失败。战争的最后胜败,要在持久
6、抗战中去解决。今天的战争,要求我们充分运用半年抗战的宝贵经验。不仅应研究战略战术,而且还应以最大努力,利用一切可能,动员广大民众加入军队,补充现有兵团,组织新的部队,积蓄与扩大国家的武装力量,以支持长期艰苦的战争。,语料样例,译文文件:DongYuanXinBingJi. en MOBILIZE NEW RECRUITS AND CONDUCT POLITICAL WORK AMONG THEM January 12, 1938ICurrently we are suffering a temporary and partial setback in our defensive war aga
7、inst Japan, but this is not final defeat.The final outcome of the war will be determined by a protracted war of resistance. In order to continue in the present war, we must take full advantage of the valuable experience we have gained from the past six months fighting.We should not only study strate
8、gy and tactics, but also do our utmost in every possible way to build up and expand the national armed forces by mobilizing the people to join the army, replenishing the existing corps and organizing new armed units in order to support an arduous, long-drawn-out war. ,双语相关集列,可以集成到一个翻译环境中 也是双语语料库的展示平
9、台 也能辅助语言教学研究 最基本的双语语料库工具,最基本的功能,语料选取、抽样 单语或双语项表达式检索 相关集列显示 搭配分析 双语词频统计,相关集列显示,. 15 .Perpetuation of testimony ( O . 39 , r . examined to perpetuate testimony unless an action . to perpetuate any testimony which may be . to perpetuate the testimony of witnesses shall . with his present testimony , bu
10、t , before such . with his present testimony , does not distinctly . consular officer in testimony of any such . for perpetuating such testimony and for rendering . person to give testimony ( either orally or .,. 方 负责 的 任何 裁定 。 15 . 证 供 的 继续 留存 ( 第 39 号 命令 第 15 条 ?. ( 1 ) 除非 已 有 诉讼 开展 以 使 证 供 得以 继续
11、留存 , 否则 不得 对 证人 进?. . 存 , 否则 不得 对 证人 进行 讯问 以 使 证 供 得以 继续 留存 。 ( 2 ) 任何 . . 该 权利 或 申索 或 会 有 关键性 的 任何 证 供 得以 继续 留存 。 ( 3 ) 不得 . . 。 ( 3 ) 不得 将 为 使 证人 证 供 得以 继续 留存 的 诉讼 排 期 审讯 。 . . 证人 在 其它 时间 曾 作出 与 他 当前 的 证 供 不 相符 的 陈述 , 但 在 提供 该 后 述 . . 程序 的 标的 事项 有关 并 与 他 当前 的 证 供 不 相符 的 陈述 被 盘问 时 , 并 无 明?. . 维护 真相 及 公正 , 宜 提供 方法 , 使 证 供 得以 继续 留存 并 在 有 需要 时 可 供 ?. ?宣誓 而 ( 以 口述 或 书面 方式 ) 作出 证 供 , 则 本 款 并不 阻止 该 命令 作出 。 .,搭配统计分析,