3D可视化言语表达和情感模拟研究.doc-道客多多

资源描述

1、兰州大学硕士研究生论文开题报告所在院系信息科学与工程学院专业电子与通信工程学生姓名入学时间导师课题名称兰州大学研究生院制1一、立论依据（以下各项均可加页）（包括课题的研究意义，国内外研究现状分析，附主要的参考文献。）语音的产生是一个极其复杂的过程，从大脑形成要表达的信息开始，经过词汇、语法等选择和组织过程，再将所形成的连续语音及其包含的发音序列传导到发音器官，而多个发音器官按照大脑的指令对发音序列中的每个发音协同运动，配合不同的速度、音调以及重音等韵律特征产生出语音，以表达大脑中要表达的信息。这样一个复杂过程需要多个神经生理、心理、物理变化，却可以在几十个毫秒就完成，从

2、而使人类可以自由地表达、沟通和交流。同样，对语音的认知也是一个复杂而神奇的过程，从声音经过听觉系统传入大脑，到大脑对这些信号的理解至今仍有很多步骤有待深入发现和研究。目前，语音识别，同样汉语中文的普通话识别，作为语音研究领域的一大比较成熟的课题，并且取得了比较可观的效果！与语音识别相对应的，语音合成是语音领域一个积极研究的课题。语音包含听觉语音和视觉语音，前者指的是声音形式的语音，后者指语言表达过程中，人面部的可视的动作，主要是嘴部、舌头、牙齿以及面部表情等动作。视觉语音的合成是复杂的，尤其是合成与听觉语音对应性良好的视觉语音，用来模拟出说话人表达过程中的真实状态，达到逼真的效果，就比较困难，

3、这其中要牵涉到信号处理，模式识别，计算进图像学等人工智能等多方面的学科，是一个比较复杂的研究课题！复杂性就在于这种对应关系的映射过于复杂。虚拟现实中的虚拟人物、动漫制作和游戏娱乐等领域中，都要求这些虚拟角色可以有丰富的表情。至少需要表达出喜怒哀乐的情感，尤其是最近几年虚拟现实技术和人机交互的发展，迫切需要一个会说话的虚拟的人物。但是由于人脸生理结构十分复杂,而人的表情，情感又变化多端，所以建立和计算人脸的物理模型十分困难,而且由于人们对人脸的外观十分敏感,要真实地模拟人脸上细微的表情变化也十分困难 1。逼真且实时的动画显示是计算机图形领域一个重要的研究课题 2。通过将静态的数据以一定的速率读入

4、并显示出来，由于人眼睛的视觉暂留，来达到以静变动的目的。为了满足实时显示，就需要多线程的并行工作，为了达到逼真程度，就要多人脸的生理结构进行有效的控制和显示，为此计算机图形学的研究人员做了很多这方面的研究，旨在寻找一种稳定、实时且逼真的流体模型 3-4。人类语言是非常复杂的，有听觉语音和视觉语音，并且它的产生是交互式的，通常上从一个方面进行判别和研究往往是不够的，就拿语音识别来说，以往的研究就是单独的从听觉方面进行的声学的研究早已不适合现代生活的需要，因为在复杂噪声环境下和听力有问题的人群来说，配备一些视觉上的信息，从口型，眼睛，眉毛，面部动作等信息上可以辅助人们进行更好的判断！怎样来进行更进

5、一步的语音识别，并且建立一个视觉上的语音信息，是视觉语音是一个很值得研究的课题，一个比较有创意的想法就是在这些研究的基础上建立一个 3D 的说话人，来达到视听并用的效果。目前世界上存在很多言语语言障碍人群，言语语言障碍也是脑卒中的一个并发症状 5，据最新数据统计，仅脑卒中一项，我国每年脑卒中新发病例约为 250 万。患病人群的叠加效应和快速增长给社会、家庭造成巨大的经济负担和精神压力，已成为严重影响国计民生的重要公共卫生问题。言语语言障碍的康复训练是康复医学的重要研究内容，一般需要医生、家属的协助治疗。临床研究发现，视听结合的语音教学方式比单独的视觉或听觉教学效果更好，这是由于发音的动态模拟过

6、程可刺激聋儿对内部发音器官运动轨迹的理解，并使聋儿形成发音时对发音器官位置的控制。发音动作精准、面部表情丰富和带面部表情的的虚拟 3D 说话人头2像可以作为患者康复治疗的一个非常好的辅助工具 6-9。可大大减少言语语言障碍康复训练所投入的人力物力，且提升康复效果。而传统的语言康复训练一般通过教师人为产生发音动作的示例让受训者模仿。这样的训练方法难以使听障儿童观察到内部发音器官(如舌头等)的准确运动。针对传统训练方法的缺陷，近年来，视听结合的聋儿言语康复系统已成为国际儿童言语康复训练的发展方向。随着社会经济的发展，人们对于生活质量，尤其是通信行业的提高有越来越高的要求，而言语沟通功能是人类生活的

7、必备功能。所以，虚拟现实技术的发展对于，远程会议，虚拟主持，迫切需要一个实时动态逼真的 3D 图像技术，这也成为当前人们生活的一大热门话题。本文研究的课题提供了一个带表情、韵律和嘴部动作的连续语音的合成模型，逼真度和友好度良好，可以供患者练习使用。在语音识别和语音合成方面也是一个很好的应用系统。另外本文使用的技术和最后的成果，可以应用到电影游戏娱乐和动画的的虚拟人物上，传统的虚拟角色，通常都比较生硬，面部表情匮乏，说话口型与声音没有对应，只有简单嘴部张合动作。相比较而言增加一些情感的模拟进一步达到逼真的效果。视觉语音合成研究现状早期的视觉语音合成器是对主要的面部发音器官（唇、舌头、牙齿和下颚等

8、）的轮廓做一个简单的向量图动画显示。舌头和牙齿携带了重要的语音信息，但舌头和牙齿是部分可见的，这就需要有效的隐藏线移动算法，即便如此，舌头的软组织结构使得舌头的轮廓和形状非常难以描述。后来提出了数据驱动的合成方法，主要是基于数字图像处理理论。然而合成电视质量的全色彩动画通常需要每秒产生数百万比特的信息，因此原始的基于数字图像处理的数据驱动的方法计算成本太高。需要对数据进行预处理，即特征提取过程，20 世纪 80 年代以后就采用了统计数据处理方法：（1）MLP（多层感知），这种方法的缺陷是不够稳定，图像较小的变化会引起 MLP 内部表示较大的变化；（2）PCA（主成分分析），这种方法是将原始的模

9、式空间转化到了维数更低的新空间，减少了数据量，将该方法进行延伸，可以得到多阶段 PCA 方法；（3）DCT（离散余弦变换），这是图像和视频处理的常用方法，只保留高能量的 DCT 系数，减少数据量；（4）HMM（隐马尔科夫方法），这种方法用在语音识别方法较多，将该方法进行拓展，有基于GVP-HMM（广义可变参数-隐马尔科夫）的声音到发音器官运动的逆转模型 10-11。视觉语音合成中一个关键的问题是头模型的建模方式。早期在计算机性能低下，相关理论不大成熟的情况，采用的是基于向量图的二维面部拓扑结构。再后来提出了三维线帧模型，这是一种基于光栅图的方法，用复杂多边形组成人的头结构，这种方法的难点在于时

10、变运动控制参数的推导。还有从解剖学上对头进行建模，定义好皮肤、肌肉和骨骼的描述，是时变的肌肉控制参数来改变形状模拟运动方式，然而困难的是肌肉参数推导机制很不直接，测量也非常复杂，而且肌肉特征的控制参数只有部分可见。动画其实就是一帧帧的静态图片快速切换过程，也有基于强大的计算机系统，在一系列面部图片之间切换来模拟头部运动。另外就是基于变形算法，通过捕捉少数的面部控制点，通过变形算法来计算整个人脸的变形点 12。三维动画技术研究现状三维动画是计算机图形领域的主要内容，是一种虚拟现实技术。通常三维动画具有虚拟性、模仿性、综合性和直观性的特点 13。三维动画的应用很广泛，可以辅助教学，可以作为类人计算

11、机代理，可以用在动画卡通电影中，还可以应用在游戏娱乐中。在我国的一些动画电影制作当中，通常只考虑动画人物和场景等满足剧本要求即可，很少考虑人物的环3境内在特点，在虚拟人物设计和渲染方面也远远落后于日本等一些发达国家，这样的动画难以引起观看者的兴趣。现在我们国家也在控制人物运动和人物造型设计上做研究，这也加快了动画企业和游戏企业的发展 14-15。从三维动画角色的设计上来说，目前国内外都是以 3DSMAX 和 Maya 为主，这两款软件提供了多种建模方法，但主要还是多边形建模。尽管如此，3DSMAX 和 Maya 建模是一个很费时费力的过程。无论是国内还是国外的动画电影，观者可以感受强烈的夸张效

12、果，这是一种喜剧色彩。然而需要应用在类人计算机代理和虚拟播音员的场景中，我们需要其尽量的真实性，无论是从人物构型方面还是从人物运动，言语表达时的表情和口型等与表达内容和声音的一致性，都需要与真实人物有很高的类似性 16，目前国内外还不能在这方面达到很好的效果。综上所述，一种结合音视觉的带表情的连续语音 3D 人头像系统就可以很好的达到以上效果，不但可以用于相关研究人员系统研究，也可以应用在辅助教学和类人计算机代理中，并且对虚拟现实和 3D 动画行业也是一个很好的促进作用。因此，本文的研究课题具有很好的应用前景和商业价值。主要参考文献（列出作者、论文名称、期刊名称、出版年月）。1 张青山, 陈

13、国良. 具有真实感的三维人脸动画J. 软件学报, 2003, 14(3):643-650.2 J Stam. Real-time fluid dynamics for games.3 Stam J. Stable fluidsJ. Acm Transactions on Graphics, 2001, 1999:121-128.4 Mcnamara A, Treuille A, Popovi Z, et al. Fluid Control Using the Adjoint MethodJ. Acm Transactions on Graphics, 2004, 23(3):447-454.5

14、李泽兵, 楼惠军, 陈益铭, 孙玉春.脑卒中后言语和语言障碍问题J. 现代康复. 2000(05).6 徐玲丽, 沈志祥. 失语症的康复治疗J. 中国组织研究与临床康复,2007,11(17).8 夏芝兰. 脑损害所致语言障碍的康复治疗J. 中国康复, 1997,12(2):7273.8 Xie X, Liu X, Wang L, et al. Generalized Variable Parameter HMMs Based Acoustic-to-articulatory InversionC/ ISCA Interspeech2015. 2015.9 Zhang L, Renals S

15、. Acoustic-Articulatory Modeling With the Trajectory HMMJ. IEEE Signal Processing Letters, 2008, 15:245-248.10 崔明, 许志闻. 基于加权 DFFD 算法和渐变动画思想的人脸动画系统J. Journal of Jilin University:science Edition, 2012, 50(2):288-292.11 郝强. 三维动画技术教育发展现状及应对策略研究J. 文艺生活文艺理论, 2013(5):246-246.12 王敬浩. 游戏动画中三维人物模型制作的研究J. 科技致富

16、向导, 2013(9):50-50.13 W. T. Reeves. Particle Systems. A Technique for Modeling a Class of Fuzzy Objects. ACMComputer Graphics (SIGGRAPH 83), 17(3):359376, July 1983.14 M. Shinya and A. Fournier. Stochastic Motion - Motion Under the Influence of Wind. InProceedings of Eurographics 92, pages 119128, Se

17、ptember 1992.15 J. Stam and E. Fiume. Turbulent Wind Fields for Gaseous Phenomena. In Proceedings of SIGGRAPH 93, pages 369376. Addison-Wesley Publishing Company, August 1993.16 J. Stam. A General Animation Framework for Gaseous Phenomena. ERCIM Research Re-port, R047, January 1997.4二、研究方案（以下各项均可加页

18、）（包括研究目标、研究内容、拟采取的研究方法、技术路线、实验方案及可行性分析和预期的研究进展）（一）研究目标视觉语音合成是目前正在研究的一个非常热的领域，本文将合成一个 3D 人头像系统，带有表情、韵律和对应性良好的嘴部动作，来达到 3D 可视化言语模拟和情感建模的目的。基于 DFFD（狄利克雷自由变形算法），采用 FacialCapture 设备采集数据进行驱动而成，3D 人头像系统和相应的算法完全是基于 C/C+和OpenGL 工具实现的，人物模型则采用 3DSMAX 创建，设计和实现了汉语连续语音可视化和情感语音合成的目的，通过一个生动的会说话的人头，呈现一个精细的嘴部、眼睛，眉毛，

19、牙齿等运动动画的正面系统，以及带表情的连续语音表达的 3D 人头像系统。（二）研究内容1. 连续语言可视化系统：进行大规模连续中文语音的视觉合成，建立一个规模比较大的汉语可视化的语音库；2. 情感语音的模拟：对几种常用的情感的表达和模拟，来实现一个带表情的虚拟的人头；（三）拟采取的研究方法、技术路线1. 本文采用面向对象的分析及设计方法，使用一种高精度和高分辨度的运动捕捉仪器FacialCapture用来捕捉人的面部运动数据，使用 DFFD 算法实现 3D 人头像变形和表情模拟，用 C/C+语言进行开发，采用 OpenGL 来实现图形化的 3D 人头像动画。3D 人头像的建模采用 AutoDe

20、sk 公司的 3dsMax 或者 Maya，导出生成 obj 文件，用 C+对其进行读取，用 C+实现 DFFD 算法对 3D 人头像变形， OpenGL 进行显示。整体框架如下图所示。图 1：FacialCapture 3D 人头像系统架构图（四）实验方案及可行性分析本文基于 FacialCapture 的直接面部跟踪技术来进行数据采集，然后处理分析，并且映射到模型中去模拟真实人的言语表达，具有真实可靠性，并且取得了预期的效果。本文给出了基于 DFFD 算法的通用变形方法，选定好控制点（控制网格）和待变形点，就可以计算待变形点的 Sibson，再移动控制点得到控制点的位移，根据待变形点的

21、Sibson 坐标便可计算出待变形点的新坐标。这样的方法思路适合一切几何软组织变形。5（五）预期的研究进展2015.08 2015.11 学习对语音识别、机器学习和模式识别等方面的知识。从认知学、语言学以及计算科学的视角对国际上视听语音处理的研究现状做了系统的调研，包括视听语音的识别与合成。2015.11 2015.12 熟悉 FacialCapture 设备的使用，确定需求分析，完成系统结构设计、搭建系统实施开发环境；2015.12 2016.03 规划 FacialCapture 实验，对 CLDC 的大约 15000 句文本数据进行数据采集，并且对部分的情感语音进行采集；2016.03

22、2016.05 完成 3D 人头像系统的设计与改进，使发音器官的动作更加协调；表情的模拟更加的逼真，完善 FacialCapture 数据的处理流程。2016.05 2016.09 系统测试，不仅包括对系统的功能测试，还包括真人用户测试，验证该系统是否对言语语言障碍康复训练有效，以及验证该模型是否能很好的进行语音可视化和情感模拟。2016.09 2016.12 优化代码结构，对代码进行详细注释与检错；收集材料编写文档，同时撰写毕业论文，准备毕业答辩。6三、研究基础(与本项有关的研究工作积累和已取得的研究工作成绩)自研究生入学以来，在导师的指导下积极参与科研项目，认真参加实验室组织的学习讨论，

23、研究生第一学年，努力学习好学校开设的基础课程，并且积极参与每周的小组讨论和汇报进展；先后学习了矩阵理论、数理统计和随机过程、嵌入式系统设计与实现等专业基础课程，同时自己学习了模式识别、和凸优化等课程，为下一步的科研工作打下了良好的理论基础；研二整个一学年在中国科学院深圳先进技术研究院实习一整年，作为研究助理，参与多项项目，主要从事两个方面内容：（1）带视频信息的语音识别，主要从事视觉和听觉语音数据的采集和处理工作，完成语料库的建立。（2）3D 说话人表情模拟的实现，为了达到模拟真实人的情感，采用面部跟踪技术，采集真实人的运动数据，映射到重建的虚拟动画人上，模拟人说话时的韵律、表情等。现阶段的其他理论知识储备，精通 matlab, C/C+编程，对 OpenGL 计算机图形学和 3D 空间动画有一定的基础，在单片机，嵌入式等硬件方面也有比较广的基础研究。已取得的研究工作成绩：1 A multi-channel/multi-speaker interactive 3D Audio-Visual Speech Corpus in Mandarin。Jun YU,Rongfneg Su,Lan Wang ,Wenpeng Zhou, ISCLSP, 2016

展开阅读全文