基于汉语协同发音模型的文本驱动三维口型动画合成研究.doc-道客多多

资源描述

1、中图分类号：学科分类号：密级：公开论文编号：JK201108110硕士学位论文基于汉语协同发音模型的文本驱动三维口型动画合成研究作者姓名：王跃学科专业：计算机应用技术指导教师：韩慧健教授培养院系：计算机科学与技术学院二一四年五月Research of Text-Driven 3D Mouth AnimationSynthesis Based on Chinese Coarticulation ModelA Dissertation Submitted for the Degree of MasterCandidate： Wang YueSupervisor：Prof. Han

2、HuijianSchool of Computer Science & TechnologyShandong University of Finance and EconomicsSponsored By：National Natural Science Foundation Project of China (61272431，61303090, 61303089)Postdoctoral Science Foundation Project of China (2013M531601)Postdoctoral Innovation Project of Shandong Province

3、(201302035)Doctoral Foundation Project of Shandong Province (BS2011DX024)Shandong Province Natural Science Foundation Project of China (ZR2012FM002，ZR2011FL020，ZR2011FL029)Humanities and Social Sciences Project of Education Ministry (13YJC860023)中图分类号：学科分类号：密级：公开论文编号：JK201108110硕士学位论文基于汉语协同发音模型的文本驱动

4、三维口型动画合成研究作者姓名：王跃申请学位级别：工学硕士指导教师姓名：韩慧健职称：教授学科专业：计算机应用技术研究方向：计算机游戏与动画学习时间：自 2011年9 月1 日起至 2014 年 6 月30 日止学位授予单位：山东财经大学学位授予日期：2014年6 月基金项目：国家自然基金项目（61272431，61303090，61303089）中国博士后基金项目（2013M531601）山东省博士后创新项目（201302035）山东省博士基金项目（BS2011DX024 ）山东省自然科学基金项目（ZR2012FM002 ，ZR2011FL020，

5、ZR2011FL029）教育部人文社科项目(13YJC860023)3山东财经大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得山东财经大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名：日期：年月日山东财经大学学位论文使用授权声明本人完全同意山东财经大学有权使用本学位论文（包括但不限于其印刷版和电子版），使用方式包括但不限于：保留学位论文，按规

6、定向国家有关部门（机构）送交学位论文，以学术交流为目的赠送和交换学位论文，允许学位论文被查阅、借阅和复印，将学位论文的全部或部分内容编入有关数据库进行检索，采用影印、缩印或其他复制手段保存学位论文。保密学位论文在解密后的使用授权同上。学位论文作者签名：指导教师签名：日期：日期：年月日年月日山东财经大学硕士学位论文摘要随着计算机动画技术的不断发展，人们对三维虚拟模型情感表达的真实感提出了更高的需求，三维口型动画就是其中的一个重要部分。论文根据汉语协同发音规律对口型合成的影响，提出了一种基于汉语协同发音模型的三维口型动画驱动方法，使得三维口型动画的合成更流畅、更平滑、更接近人们真实发音时

7、的口型。本文的研究内容如下：（1）完成声母和韵母的聚类，构建汉语可视化协同发音模型，解决协同发音对汉语连续发音时口型的影响。（2）利用 MPEG-4 中“中性人脸”和“ FDP”的定义规范化三维模型，并建立基本口型库。（3）利用连续文本驱动合成口型动画，实现口型间的平滑过渡。本文的创新点如下：（1）改进基于汉语的协同发音模型。首先，为每一类不同的声母和韵母增加不同的“影响等级” 和“受影响等级”属性，并综合考虑口型发音姿态，改进声母和韵母聚类方法。其次，增加考虑音节间元音的相互影响，构建协同发音模型，提高模型的表达能力。（2）提出了一种基于连续文本驱动口型动画合成方法。利用改进的协同发音模

8、型，实现输入的所有发音音素的优化，输出新的口型序列。通过改进对插值生成过渡帧的控制，生成更具真实感的口型动画。实验表明，论文提出的方法能充分模拟汉语协同发音对发音口型的影响，可以合成自然流畅的口型动画。基于文本驱动的真实感三维人脸动画在影视、游戏、社会生活、教育等多个领域都具有极其广阔的应用前景。关键词：三维口型动画；文本驱动；协同发音；口型序列优化IAbstractAbstract People have put forward more and more requests for the sense of reality of the 3Dvirtual-models emotion ex

9、pression along with the development of the computeranimation technology. The 3D mouth animation is an important part of this field.According to the influence of Chinese coarticulation rules, paper has put forward amethod of text-driven synthesis of mouth animation based on Chinese coarticulationmode

10、l, which makes the synthesis of mouth animation more smooth, more fluent, andmore close to real pronunciation of people.The work this paper has done is as follows:(1) Establish collaborative visualized model, reducing the influence ofcoarticulation when pronouncing Chinese continuously.(2) Using the

11、 definition of “neutral face” and “FDP” in MPEG-4 to standardize the3D model. Establish the basic mouth library.(3) Synthesize mouth animation by continuous Chinese text. Achieve that the mouthshapes transit smoothly.The innovation of this paper is as follows:(1) Improve the collaborative visualized

12、 model based on Chinese. Firstly, add theattribute of “influence level” and “influenced level” for different primitives, and improvethe method of re-clustering the initials and finals by comprehensively considering themouth pronouncing posture. Secondly, extra consider the interaction of finals in a

13、djacentsyllables and establish the Chinese collaborative visualized model, which improves theexpressing ability of the model.(2) A method of synthesis of mouth animation driven by continuous Chinese text isproposed. Use the improving collaborative-visualized-model to optimize all the enteredpronounc

14、ing phonemes and output the new mouth sequences. Synthesize smoothtransitional mouth animation by improving the control of transition frames generated byinterpolation.Experiments show that the method of this method can be used to synthesize naturalII山东财经大学硕士学位论文and smooth mouth animation, and the me

15、thod can fully simulate the changing of mouthinfluenced by Chinese coarticulation. Chinese text-driven realistic mouth animation hasbroad application prospects in the fields of film and television, game, social life andeducation.Key words: 3D Mouth Animation Continuous Chinese Text Text-DrivenCoarti

16、culation Model Optimization of Mouth SequenceIII目录目录第1章绪论 . 11.1 研究背景及意义 11.2 国内外研究现状 31.2.1真实感三维人脸建模 31.2.2协同发音的语音可视化建模 71.2.3基于MPEG-4的三维人脸动画 81.2.4该领域当前技术存在问题及不足81.3 论文研究内容 101.4 本文的创新点 101.5 论文的框架结构及章节安排 11第2章相关理论基础 . 132.1 MPEG-4 人脸动画标准 132.1.1 FDP（人脸定义参数）. 132.1.2 FAP（人脸动画参数）. 142.1.3 FAPU（人脸动

17、画参数单元）. 162.1.4使用MPEG-4标准的优势. 172.2 面向对象的图形渲染引擎OGRE . 182.3 本章小结 20第3章汉语协同发音建模与三维唇部模型建立 . 213.1 可视化协同发音建模 213.1.1协调发音与视位. 213.1.2汉语可视发音基元的选择. 223.1.3声母与韵母的重新聚类. 233.1.4建立可视协同发音模型. 273.2 三维唇部模型建立 343.2.1利用“中性人脸” 规范化三维模型. 343.2.2利用“FDP参数”规范化三维模型 353.2.3基本口型库的建立. 363.3本章小结 . 37第 4章基于汉语协同发音模型的口型合成 . 384

18、.1计算当前发音音素的影响因子 . 38IV山东财经大学硕士学位论文4.2 优化原始拼音序列 424.3 口型间的平滑过渡控制 444.4 本章小结 48第5章实验结果分析 . 495.1 协同发音模型实验分析 495.2 口型动画生成实验分析 505.3 本章小结 54结论 . 55参考文献 . 57附录A汉语拼音对照码（部分） 62附录B 汉字编码对照表（部分） 66附录C 攻读硕士学位期间取得的学术成果 69附录D攻读硕士学位期间参与的科研项目 70致谢 . 71V山东财经大学硕士学位论文第1章绪论1.1研究背景及意义随着计算机技术的不断发展，数字化的信息资源越来越多的走进人们的生

19、活。作为计算机可视化领域的一个重要分支，计算机图形学的飞速发展给人们的生活带来了一次又一次的变革。三维人脸动画的模拟就是计算机图形学研究中的一个重要部分，它将人机交互的智能性和趣味性推向了一个更高更广阔的平台。三维人脸动画可以广泛应用在计算机游戏、动画、影视制作、视频会议、网络教育等前沿领域，也可广泛应用于诸如科技馆、博物馆、图书馆、会展中心、文化体育场所、旅游景点等无人值守的公共咨询服务领域，同时还可以也可应用到税务、工商、银行、机场大厅、购物广场、公交站点等社会服务场所。因此，三维人脸动画在社会生活、服务、娱乐、教育等多个领域都具有极其广阔的应用前景。在计算机动画及影视制作领域，代表作品当

20、属最终幻想系列的圣子降临和灵魂深处、生化危机系列以及盖娜（如图 1-1所示）。2014年上映的国产电影熊出没之夺宝奇兵开创了国产三维动画作品的新篇章。这些影视作品中，精致的造型、得体的肢体动作以及完美的表情和嘴部动作都为作品本身增色不少。在计算机游戏领域，2013年底由 KONAMI出品的足球游戏PES 2014、Take-TwoInteractive Software出品的篮球游戏NBA 2K14 以及 SEGA Sport 出品的VR 网球 4都以逼真的三维人物造型，流程的运行和操作赢得了广大玩家的喜爱，其中三维虚拟人物造型的逼真度甚至能达到真假难辨的程度，如图 1-2所示。在社会公共服

21、务领域，越来越多的智能虚拟人物可以代替真人实现与用户的智能问答及娱乐游戏等，这无疑是一场人机交互的重大变革。试想一下，当你在外出旅游时为找不到附近的景点而苦恼时，一位智能虚拟人物出现在你面前，如同真人一样配合口型、表情以及手势的变化，为你耐心解答问题。这不但节省了人工咨询的成本，而且增强了人机交互的智能性和趣味性，让你在问题得到解决的同时，一解旅途的疲劳和乏味。2010年南非世界杯期间，央视体育频道的豪门盛宴栏目就利用增强现实（Augmented Reality，简称 AR）技术，将 3D虚拟球场和各国当家足球明星的虚拟3D 形象搬到了演播大厅，在增加了节目立体感的同时大大提高了交互的趣味

22、性。总之，通过使虚拟人能够理解人类自然语言，同时通过表情动画、口型动画以及手1第 1章绪论势动作等方式形象生动地进行情感表达，并伴随与虚拟表情和口型同步匹配的语音，从而使人机交互达到真实、生动、自然、流畅的更高境界，是未来人机交互的主流，同时也将引导人与人交流方式的变革，在增强了真实感和趣味性的同时，也将虚拟现实与可视的智能化推向了一个新的高度。图 1-1 最终幻想、生化危机：恶化、熊出没之夺宝奇兵电影截图图 1-2 PES 2014、NBA 2K14、VR网球 4游戏截图近年来，人们对三维虚拟人物的模型情感表达的真实感又提出了更高的要求，其中，三维口型动画就是三维虚拟模型情感表达的一个

23、重要部分。众所周知，人脸在人与人之间交流、传递情感、信息等方面起着重要的作用。从早些年人们对人脸的雕塑、素描等艺术化创作，到 1971年，Parke首先利用计算机实现了三维人脸的合成与动画，标志着人脸情感表达从艺术化向数字化的发展和转变。在数字化的今天，三维人脸表情和口型动画的真实感将越来越受到人们的重视。另外，真实感三维人脸口型动画不仅会提高虚拟人物情感表达的真实感，还能大大提高人机交互的趣味性和智能性。同时，真实感三维人脸动画是一门涉及多个学科的交叉学科，如计算机图形学、虚拟现实、自然语言理解、语音识别与合成，计算可视化等。对它的研究不仅可以增强用户体验，还可以带动其他学科的不断发展。今

24、后，对三维人脸动画的逼真模拟将全方位服务于人们日常生活的方方面面，同时也具有极其广阔的市场前景和应用价值。2山东财经大学硕士学位论文1.2国内外研究现状1.2.1真实感三维人脸建模三维人脸建模是三维人脸动画合成的基础，一个具有较高真实感的三维人脸模型可以很好的实现口型动画的合成效果，而且三维人脸建模也会影响人脸动画合成的效率、代价等方方面面的因素。因此，一个好的三维人脸模型可以为口型动画合成提供坚实的基础和保障。国外关于三维人脸建模的研究起步较早。早在 1971年，Parke F.I.通过计算机合成了一个虚拟人脸，该人脸模型用若干个简单的多边形构成人脸基本面部轮廓和特征，并实现了简单的眨眼和嘴

25、部张闭，为真实感三维人脸建模的研究奠定了基础1。现如今，三维人脸技术已经广泛地应用在多媒体应用和游戏中23。2014年，Mendi等人对三维人脸动画技术在移动设备中的应用进行了研究4。国内方面，北京工业大学的尹宝才等人采用手动标注与自动调节相结合的方法实现了三维模型与特定真实人脸的匹配5。近年来，赵晓刚和常江龙等人对特定人脸生成的关键技术以及三维人脸表情动画的合成进行了研究67。2012 年，宗智勇对多视角三维人脸建模技术进行了研究，通过关键特征点的简化标定技术、特定人脸网格模型的生成技术、无缝全景人脸纹理的合成技术以及真实感模型的纹理映射与渲染技术实现了真实感三维人脸建模8。真实感三维人脸建

26、模的方法有很多种，归纳起来可以分为基于参数的方法，基于物理的方法，基于变形的方法，基于表演的方法以及基于学习的方法，下面分别对这几种方法进行简要介绍。(1) 基于参数的方法基于参数的方法，是为“ 人脸” 制定一套描述能力较强的“参数集”。其中，“ 参数集”是指，可以通过选择不同的参数，并赋给参数不同的值来描述不同目标的不同状态。可见，基于参数的方法的关键就是构造这个描述能力较强的参数集。1974年，Parke F.I.第一次提出了参数模型（Parameterized Model）的概念，通过将人脸的“参数集”分为表情参数和构造参数，来控制并合成各种表情9。然而，虽然这种方法比较简单实用

27、，但并不适用于较为复杂的人脸变化。因此，Parke于 1975年到 1996 年，对基于参数的人脸建模方法进行了改进，使其在逐步完善的同时还能不断应用在较为复杂的人脸表情变化合成中。另外，参数模型也被广泛应用在了可3第 1章绪论视化语音建模以及人脸表情的变化等研究中1011。(2) 基于物理的方法与参数法相比，基于物理的人脸建模方法更多的是关注人脸的皮肤组织、脂肪组织、骨骼以及附着在骨骼上的肌肉等人脸生理特性，细分又可以分为基于肌肉模型的方法和基于物理模型的方法，其中，基于肌肉模型的方法又可以分为向量肌肉模型以及伪肌肉模型等；基于物理模型的方法又可以分为弹性网格模型以及分层弹性网格模型等。下

28、面将对基于物理的人脸建模方法做简要介绍。1978年，国际著名心理学家 Ekman P.和 Friesen W.V.构建了面部行为编码系统Facial Action Coding System（FACS ），其基于人脸解剖学，将人脸划分的运动单元既相互独立又相互联系，并规定了这些运动单元的运动特征及其所控制的主要面部区域12。虽然 Ekman 和 Friesen研究 FACS的初衷是将其应用到心理学领域，但这套系统无疑为基于肌肉模型的人脸建模方法奠定了基础。另外，人脸面部的表情、动作都依赖于面部的肌肉群组织，通过这些肌肉群组与面部的骨骼、皮肤相互配合作用，产生面部动作。1981年，Platt和

29、Badler在面部行为编码系统（FACS）的基础上，提出了一种简单肌肉模型，该模型利用具有弹性的弹簧将控制点进行连接，从而形成多边形弹簧网格，利用肌肉收缩力控制网格间的控制点运动生成人脸动画13。1987年，Waters 等人提出了向量肌肉模型，与 Platt 和 Badler 的方法相比，该模型添加了方向性参数，并建立了向量模型，来完善肌肉的真实运动情况，使模型的建立可以应用在更为复杂的情况下14。1988 年，Thalmann 等人又在前人的基础上提出了伪肌肉模型的概念，定义若干伪肌肉单元，并与 FACS各单元相结合，模拟肌肉的运动，这使得基于肌肉模型的建模方法再次得到发展15。随后，Te

30、ran 等人提出了一种更为一般化的基于肌肉构造原理的人脸构造方法16，2005年，Sifakis等人将 Teran的方法进行了扩展，构造了一个基于面部解剖学的人脸肌肉模型，这个模型具有十分高的精确度17。基于肌肉模型的人脸建模方法不用专业表演人员佩戴复杂、庞大的设备，也不需要建立庞大、高质量的三维人脸数据库，而且其关注人脸面部运动的内部机理，具有其他方法不可取代的研究意义。然而，该方法的最大局限性在于：若要合成具有真实感的复杂人脸动画，就必须建立较为复杂的肌肉模型，因为一个过于简单的肌肉模型往往不能很好的合成复杂的人脸动作。1980年，Platt首先提出了基于物理模型的方法。与肌肉模型类似，物

31、理模型也4山东财经大学硕士学位论文是利用具有弹性的弹簧将控制点进行连接，形成多边形弹簧网格，利用肌肉收缩力控制网格间的控制点运动生成人脸动画18。但不同的是，根据不同人的人脸面部的不同特征和属性，不同区域的弹性参数是不一样的，这样可以使人脸动作的生成更具真实感，同时能有效解决传统手工建模工作量大的问题。其缺点是数据计算和处理的复杂性较高，且不具备实时性。1990 年，Terzopoulos 和 waters 在之前肌肉模型的基础上提出了一种基于物理模型的多层弹性网格人脸建模方法，该模型由皮肤组织、脂肪组织与附着在骨骼上的肌肉群组构成1920。1994年，Wu等人以基于减少计算复杂度的思想为前提

32、，提出了一种基于物理的皮肤模型 21。1995 年之后，Lee等人又在 Terzopoulos的方法的基础上提出了一种非线性的物理模型。此后，弹性网格模型以及分层次弹性网格模型相继被提出，基于物理模型的方法又得到了一定的发展。国内方面，2000年，浙江大学的梅丽等人提出了一种简单的三维人脸重构方法，并于 2001 年在先前研究的基础上，实现了基于肌肉模型的人脸动画驱动。200222年，邹北骥等人在总结了国内外有关该课题研究方法的基础上，提出了一种基于物理模型的人脸表情动画生成算法，并依该算法设计和开发了一个实际的人脸表情动画系统23。2008 年，周维通过对 Waters 肌肉模型进行改进，

33、提出了一种专门用于唇部动画合成的唇区肌肉模型24。2011年，司倩倩等人提出了一种拟合抽象肌肉模型，通过对宽线性肌的数学模型进行改进，使其能更为简洁生动的模拟人脸表情25。2013年，杨逸等人提出了一种基于运动轨迹分析的三维唇舌肌肉控制模型，增加了对舌头部位的模拟以及协同发音的控制，逼真地实现了三维模型的嘴部动作2627。(3) 基于变形的方法在基于变形的方法中，较为简单的应属关键帧插值法，顾名思义，利用时间轴上的动画关键帧，并对关键帧进行插值，生成连续光滑的动画。插值函数有多种，例如：线性插值、双线性插值、余弦插值等。这种方法较为灵活，通过改变插值函数的参数，也可以不同效果的插值动画，但是往

34、往需要大量的人工干预才能合成一个较为理想的动画变形效果，智能性差强人意。1996年，Sera对肌肉的弹性参数进行线性插值，实现了唇部动画的合成28。另外，在基于变形的人脸建模方法研究中，Sederberg于 1986年提出的 FFD自由变形算法（Free Form Deformation）被广泛应用于三维人脸动画合成领域29。1992年，Kalra等人提出了 RFFD 有理自由变形算法（Rational Free Form Deformation）构建三维人脸运动模型30。随后，Bitouk等人5第 1章绪论实现了一种基于单幅图像构造人物化身的方法31。国内方面，2004年，姜大龙等人提出

35、了一种面向纹理特征的真实感三维人脸动画合成方法32。2005年，尹宝才等人对基于形变模型的人脸建模方法进行了详细描述，并对该方法的应用进行了系统的综述33。2008年，姚俊峰等人通过将人脸表情动画技术分为基于几何学的方法和基于图像的方法，详细阐述并比较了研究成果，并分析了它们各自的优缺点34。2011年，廖海斌等人提出了一种方法改进面向形变模型的三维人脸建模，实现了简洁高效的三维人脸重建35。2012年，胡阳明等人基于 ASM 增强算法，对三维人脸重建的方法进行了改进36。2013年，吴子扬等人提出了一种由粗到精的三维人脸稀疏重建方法，在保证较快重建速度的同时大大提高了人脸重建的精度37。

36、(4) 基于表演的方法基于表演的方法，故名思议，它依赖于专业的表演人员（口型模特）和专业的硬件设备，通过硬件设备捕捉正在表演的人员的面部动作，利用所得数据合成人脸模型。这种方法可以轻易的得到实时的人脸动画，而且数据计算量不大，合成效果较为精确，真实感强，缺点是必须依赖专业的表演人员和硬件设备，且这些设备往往过于复杂、庞大，佩戴不易且不舒适。基于表演的方法最早由 Williams 于 1990年提出，该方法使用专用摄像机跟踪口型模特的面部运动并进行标记，最终驱动生成人脸面部动画38。2000 年之后，Chai 以及 Zhang 等人分别对基于表演的三维人脸建模方法进行了改进，他们分别提出并实现了

37、一个基于视频驱动的三维人脸动画合成系统和基于几何学与图像的技术，完善了基于表演的三维人脸建模方法39。(5) 基于学习的方法基于学习的方法与以上介绍的各种方法区别明显，它不依赖于人脸面部动画的内部机理，也不依赖骨骼、肌肉等的运动特性，只注重最终的脸部变形效果。该方法首先利用专业的图像采集设备，捕捉一系列连续的真实人脸图像，再通过某种训练学习法则从这一系列连续的真实人脸图像中提取参数进行合成。该方法的优点是可以合成超高真实感的人脸动画，但对于三维人脸动画合成来说，其合成代价也是相当大的，它依托于建立一套庞大的、高清晰度的三维人脸数据库，且数据库中三维人脸的质量好坏完全决定了最终的动画合成效果，

38、可见该方法对这个三维人脸数据库的依赖是非常大的。该方法的提出可以追溯到 1997年，Bregler 等人提出了一种方法，通过训练的方法可以实现利用现有的视频素材合成新的口型视频40。6山东财经大学硕士学位论文1.2.2协同发音的语音可视化建模协同发音是指人在连续发音时的一种自然现象，可以理解为在连续发音过程中，某一个语音的生成不仅仅由产生当前语音的肌肉群的运动作用，也会被之前或之后语音的肌肉运动所影响。具体表现为在发音时当前的发音音位会对前一个或后一个音位的发音产生一定程度的影响，同时当前音位的发音也会受到之前或之后音位的发音的影响而产生变化。也就是说，人在连续说话时并不是完成一个由“闭”到“

39、开”再到“闭”的过程，再进行下一个由“闭” 到“开 ”再到“闭” 的过程，而是在当前音位发音时，就已经在为下一个音位的发音做准备，并逐步过渡到下一个音位的发音，最终完成整个发音过程。语音可视化建模是三维人脸建模和人脸动画驱动的中间环节，也是驱动人脸模型产生动画的核心和基础。协同发音的语音可视化建模最早由 Waters于 1987年提出，他的方法中，当前发音音素的口型合成取决于其之前和之后的音素。1991年，Pelachaud 提出的“三部算法”将 Waters 方法过于简单、不能适用于所有情况的缺点进行了改进41。该方法首先对真实口型发音时的形状进行分类，使其可以有更广泛的应用，然后提出了口型

40、的变形程度与发音语速的快慢有直接关系。 1990 年，Lfqvist 提出了一种发音姿态理论。随后，Cohen 和 Massaro 在前人的基础上，提出了一种新的具有权值函数和融合函数的协同发音模型，但该方法需要设置复杂的参数42。1994 年，Cassell 在前人的基础上，提出了一种基于“规则集” 的协同发音模型，对协同发音的可视化建模进行了完善43。1999年，Brand基于隐马尔科夫模型 HMM（Hidden Markov Model）构建协同发音模型。2002年，Kalberer通过实现建立好的“ 视位空间” 构建协同发音模型，该“视位空间”指的是依据挑选出的各种发音音素的重要程度

41、对协同发音现象进行描述的一种规范 44。2008 年，Tang等人定义了美式英文中的口型视位用于串联美式英语中的发音音素，但并不适用于基于音节发音的汉语发音45。King等的基于时间权重函数建立协同发音模型，能较好地描述发音音素的动态视位情况46。国内方面，1998年至 1999 年，哈尔滨工业大学的晏洁等人通过研究汉语语音的发音规律，提出了一种韵母口型库的生成方法并以此构建唇动模型，利用机器学习和口型聚类的方法，实现了语音与口型的同步4748。2008 年，Li 等人基于机器学习的方法模拟协同发音现象，并在此基础上实现了基于数据驱动的口型动画合成49。2010年，Wu 等人提出将辅音中的闭

42、塞音等以及具有闭塞特征的元音划分为一7第 1章绪论类，因为这么音素在发音时必须保持原来的口型，但是该方法没有很好地描述汉语协同发音中辅音与元音的关系50。2012 年，Chen 等人基于主导模型，并考虑协同发音现象，并通过模拟音素与口型之间关系合成了更为平滑、流畅的动画51。1.2.3基于MPEG-4的三维人脸动画MPEG-4是一个国际多媒体压缩标准，其中有一个部分专门用于描述三维人脸动画的定义与合成。由于 MPEG-4标准具有很好的通用性，因此，它也被广泛应用在三维人脸的建模和动画合成中。1998年，Ostermann首先基于 MPEG-4标准，实现了一套口型与英文音素的映射法则，并基于

43、MPEG-4标准实现了人脸动画的合成52。1999年，Lavagetto 等人通过构建一个高层接口实现了一个面部动画引擎。2000年，Pockaj等人提出了一种径向集插值算法，并以此为基础实现了一个具有很好兼容性的三维人脸动画系统53。2001年，Kakumanu等人利用 MPEG-4标准构建人脸面部多边形模型，通过模拟肌肉的运动驱动人脸动画54。2002年，Tekalp等人提出了一种基于 MPEG-4 的二维人脸网格动画的合成。随后，Szijrt 等人首先提出了一个兼容 MPEG-4标准的三维人脸动画系统。该方法使用的是低码率的数据流，对计算机的计算能力以及网络的传输速率的要求不高，2009

44、年，Malatesta 等人也与MPEG-4为基础构建了一个三维人脸动画系统55。国内方面，同年，王奎武等人基于 MPEG-4标准，实现了一个与 MPEG-4标准兼容的人脸动画系统56。国内方面，姜大龙等人于 2001 年提出了一种基于 MPEG-4 的人脸动画实现方法，该方法通过人工标记和自动调节相结合，实现了一种新的人脸动画定义表的实现方法，并最终合成脸部动画 57。2003 年，张青山等人对两种高层参数（基于MPEG-4中的 FAP参数和基于 Waters 肌肉模型）驱动三维人脸动画合成的方法分别进行了阐述，并提出了新的方法对该两种高层参数进行改进，实现了真实感人脸动画的合成58。2

45、011 年，於俊提出了一种基于 MPEG-4 的三维人脸表情合成算法，该算法在 FAP流的驱动下可以生成真实感较强的三维人脸动画59。同年，尹宝才等人也提出了一种基于 MPEG-4 的融合口型、表情等多种脸部运动的三维人脸动画合成方法，较为自然地融合了人脸表情和口型动作60。1.2.4该领域当前技术存在问题及不足通过以上分析，我们可以看出，有关三维人脸动画合成的研究已经取得了一定的进展，能通过文本驱动、语音驱动和文本语音混合驱动等不同方法，在建立8山东财经大学硕士学位论文语音可视化模型解决协同发音现象的基础上，在建立好的三维人脸模型上合成较为真实的口型和表情动画。然而，关于三维人脸动画合成的研

46、究也面临以下几个方面的不足：（1）基于口型动画合成的汉语语音可视化建模研究较少三维人脸与口型动画的合成研究在国内起步较晚，相关研究较少。现有的研究成果，大都根据汉语发音规律，对汉语发音时的声母、韵母进行重新归类，为每一类建立基本三维口型模型库。在建立口型库的过程中，往往需要大量的人工调整和干预，建库的复杂性较强，对口型动画的实时性合成有较大影响。另外，语音可视化建模是三维人脸动画合成的重要基础，目前基于口型动画合成的语音可视化建模方法尚不成熟，不能很好地描述协同发音作用对发音音素之间的相互作用和影响。因此，这就使得口型动画的合成更多的依赖人工干预，这不但增加了预处理工作量，降低了效率，且不易扩

47、展。（2）口型动画合成方法单一且真实感有待提高现有的汉语文本驱动的方法中，一般是通过声母、韵母的三维口型库，合成一个完整的汉字发音口型，再通过过渡算法，将单个口型合成单词，从而完成了整个口型动画的合成过程。这种方法虽然能合成比较逼真的动画，但毕竟只是合成单个口型，而后再进行口型间的过渡，过渡效果往往不能很好的达到效果，且没有考虑协同发音对前后音素的影响。对于口型动画的驱动合成，大都需要人工干预进行参数调整，难以保证口型动画合成的实时性。另外，目前口型动画的合成代价和合成真实感之间存在着一定的矛盾。合成高真实感的口型动画要么需要通过大量人工手动调整的繁琐制作，要么需要通过大规模高造价的高质量口型

48、数据库。因此，口型动画的合成效率也是一个亟待解决的问题。（3）口型动画与汉语语音的同步匹配效果不佳目前有关汉语驱动的三维人脸动画中，嘴部的动作与汉语语音并不能很好的同步匹配。在实际应用中，一旦口型动画与语音朗读不能实现同步匹配，即便能合成高真实感的口型动画，人机交互的效果也会大打折扣。目前，有关语速与口型动画合成的协同控制研究比较有限，如何实现口型动画合成的个性化和智能化也是一个亟待解决掉问题。可见，针对汉语的三维口型动画合成技术无论在真实感、实时性还是动画与语音的匹配等方面都存在一定的不足，仍然需要不断的研究和完善。9第 1章绪论1.3论文研究内容（1）基于汉语的可视化协同发音建模本文通过

49、建立改进的可视化协同发音模型，有效解决了协同发音对汉语连续发音时口型的影响。首先对发音基元的选择进行分析，其次根据不同的汉语拼音声母和韵母的影响和受影响程度，为每一类发音基元赋予不同的“影响等级” 和“受影响等级”属性，从口型发音姿态相似度和影响等级两个方面对口型进行聚类。其次对现有的协同发音模型进行改进，考虑音节间元音的相互影响，并采用分段函数的方法模拟音素之间的影响程度，用于描述汉语连续发音中协同发音的影响，构建可视协同发音模型。（2）建立符合 MPEG-4标准的三维唇部模型三维唇部模型的建立是三维人脸动画合成的基础。论文在学习现有的三维人脸建模方法（如基于表演的方法、基于参数的方法、基于肌肉模型的方法、基于物理模型的方法等）的基础上，利用 MPEG-4标准中的有关定义，三维人脸参数的定义，分别利用“中性人

展开阅读全文