1、I分类号: 密级: 专 业 学 位 研 究 生 学 位 论 文论 文 题 目(中文)3D 可视化言语表达和情感模拟研究论 文 题 目(外文) The research on 3D visual speech expression and emotional simulation研究生姓名学位类别 工程硕士专业学位领域 电子与通信工程学位级别 硕 士校内导师姓名、职称 校外导师单位、姓名论文工作起止年月 论文提交日期 论文答辩日期 II学位授予日期3D 可视化言语表达和情感模拟研究摘要语音可视化是语音合成研究领域中的一项重要的分支,具有真实感的 3D人脸模型是实现言语表达和情感模拟动画的基础和前
2、提,同样也是计算机图形学、计算机视觉、人机交互等领域中非常重要的和非常活跃的热点研究课题。合成具有真实感视觉方面的 3D 人脸模型是现阶段国内外的许多专家学者的难点所在。这是因为人脸生理结构的复杂度,人脸说话口型的多样性,人脸表情运动的微妙性,口型动作与文本或声音的复杂的映射建模等都是具有挑战性的研究。本文在前人研究的基础上结合语言学和计算机图形学的知识,建立一个文本驱动的带说话、嘴部动作、韵律和面部表情等的 3D 说话人头像动画模型。该模型具有真实感好、言语表达和情感模拟性逼真、自动化等优点,在电影特效、广告动画、计算机游戏和言语康复训练以及虚拟教学和视频会议等领域都有重要的应用前景。本文使
3、用直接面部跟踪技术,以美国的 NaturalPoint 公司旗下的 Optitrack系统采集真实人脸部运动数据的三维信息。该系统有六个红外摄像机和配套的软件 Arena 组成,用来跟踪真实人说话时贴在脸部的 markers 点运动位置。首先将得到的三维运动信息提出得到运动特征点的三维坐标,其次将经过处理的三维坐标点映射到人脸模型特征点坐标系中来驱动虚拟的 3D 人脸模型。文章中 3D 虚拟人脸模型分成几个运动相对独立的功能区域,使用狄利克雷自由变形算法 DFFD 和刚体的旋转平移变换上的控制点的移动来驱动 3D 说话人模型,通过不同功能区域交叉控制点,模拟不同功能区的相互影响。通过 Visu
4、al Studio 2010 C/C+编程,并用开放的图形接口 OpenGL 添加光照,纹理映射等信息显示出来。本文中的言语表达和情感模拟分别采集不同的真实人的脸部运动信息来驱动。言语表达采集中性的文本语音数据,然而情感模拟的数据需要采集专业表演人员的带有感情色彩的语句。与此同时采集并处理对应的语音信息,作为音视频对照和同步以及可视化语音识别的一个研究方向。接着本文设III计了人工实验来对对模拟出来的言语和情感效果进行验证以及评价。最后,我们对本文的研究工作做了总结,并对当前存在的不足和问题进行了分析和展望,并对未来的可能的研究方向做了憧憬。关键词:语音可视化,言语表达,情感模拟,虚拟教学,D
5、FFD,OpenGLThe research on 3D visual speech expression and emotional simulationAbstractSpeech visualization is an important branch in the field of speech synthesis research. Realistic 3D face model is the basis and prerequisite for realizing speech expression and emotion simulation animation, it is a
6、lso a hot research topic which is very important and extremely active in the fields of computer graphics, computer vision, human-computer interaction and so on . It is very difficult for lots of experts and scholars who come abroad or home to synthesize the face mode with realistic vision aspects at
7、 present stage. The reasons why it is a challenge research are that the face physiological structure is very complex, the mouth shape is diverse when people speech, the facial expression movement is subtle and the action of the mouth and the complex mapping of the text or sound is with difficult. We
8、 build a 3D talking head animation model with text-driven, mouth movement, rhythms and facial expression via combining the knowledge of linguistics and computer graphics based on previous studies. Its advantages are well realism, the realism of verbal expression and emotion simulation, automation ,
9、ect,and it has bright application prospects in the film effects, advertising animation, computer games, speech rehabilitation training, virtual teaching and video conferencing and other fields. In this paper, we obtain three-dimensional information from real human facial motion by using the NaturalP
10、oint system of United States based the direct face tracking technology. There are six infrared cameras and companion software named Arena in this system to track the movement of marker points which are on the real person face when speaking. Firstly, we can get the three-dimensional motion position o
11、f motion feature points from the three-dimensional motion information. And then map the 3D coordinate points which are processed to face model feature coordination system to drive the virtual 3D face model. The 3D virtual face model is divided into IVseveral functional areas which are relatively ind
12、ependent in this paper, and the 3D talking head model is driven by the Dirichlet free deformation algorithm DFFD and the movement of the control points on the rigid rotation transformation. Simulating the interaction influence of different functional areas is through different functional area cross
13、control point. And also making programming in Visual Studio 2010 C/C+, then displaying the result through the open graphical interface OpenGL by adding light, texture mapping and other information. In this paper, speech expression and emotional simulation are driven by different real human facial mo
14、tion information respectively. The data of speech expression which are from neutral text voice are collected, while the emotional simulation data which come from the statements with emotional are collected by professional performers. At the same time, we collect and process the corresponding databas
15、e and then regard it as a research direction for audio-video comparison and synchronization, visualization of speech recognition. Next, we verify and evaluate the experiment effects of speech expression and emotional simulation by designing the manual experiment. Finally, we summarize the research w
16、ork of this paper, analyze and forecast the current shortcomings and problems, meanwhile, look forward to the longing of possible research direction in the future.Key words: speech visualization,speech expression, emotional simulation , virtual teaching, DFFD, OpenGL V目 录摘要 .IAbstractII第一章 绪论 11.1 引
17、言 11.2 国内外研究现状以及研究意义 21.2.1 国内外研究现状概述 21.2.2 研究意义 61.3 本文主要工作及内容安排 71.4 本章小结 9第二章 狄利克雷自由变形算法和 OpenGL 图形学技术 102.1 变形算法简介 102.2 DFFD 算法总思想 .112.3 DFFD 算法原理 .132.3.1 Delaunay 三角划分 132.3.2 Voronoi 图 142.3.3 Sibson 坐标的计算 .162.3.4 DFFD 算法流程 .172.4 OpenGL 图形学技术 .182.4.1 OpenGL 图像学技术简介 .182.4.2 OpenGL 的纹理映射
18、技术 .192.5 本章小结 20第三章 3D 可视化人头的实验设计和数据处理 213.1 实验设计的整理思想 213.2 实验数据采集 21VI3.2.1 基于 Arena 的数据采集平台 .213.2.2 语料和受试者的选取 243.2.3 实验采集的数据库 263.3 数据处理 283.3.1 音频-动作数据同步和音频切割 .293.3.2 运动数据的离群值检测和修正 313.3.3 去除运动数据的刚体头部运动 333.3.4 运动数据的姿势矫正 353.3.5 真实数据映射到模型坐标系中 373.4 本章小结 39第四章 3D 可视化言语表达和情感模拟系统的设计与实现 404.1 3D
19、 可视化言语表达和情感模拟系统的整体框架 .404.2 3D 可视化言语表达和情感模拟系统的实现 .414.2.1 DFFD 的计算和实现接口 .414.2.2 数据初始化 424.2.3 事件监听 444.2.4 头部的运动数据处理方式 454.2.5 3D 可视化言语表达和情感模拟系统的系统实现 .464.3 本章小结 48第五章 实验结果与系统评估 495.1 实验结果 495.1.1 面部运动数据的静态帧和关键帧显示 495.1.2 3D 可视化人脸模型的设置 .515.1.3 3D 可视化言语表达动画结果 .535.1.4 3D 可视化情感模拟动画结果 .545.2 实验结果评估和分
20、析 57VII5.3 本章小结 60第六章 总结和展望 616.1 本论文工作的总结 616.1.1 本文的特色 616.1.2 本文的不足和缺陷 626.2 对未来要继续进行的工作的展望 63参考文献 65在学期间的研究成果 69致 谢 70兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 1第一章 绪论1.1 引言合成逼真的三维人脸模型动画技术是计算机图形学和人工智能快速发展的产物。三维人脸模型动画技术能够在计算机中建立一个虚拟的世界,由于其真实性,交互性和易操作性的特点让我们能够感同身受,犹如身临其境的感觉。人脸建模和动画正在以蓬勃发展的势头融入了我们的生活,比如游戏娱乐、
21、电影动画、虚拟会议、辅助教学。而面部手术,高科技武器对战模拟以及视频电话等其他的许多科学研究领域,都无不充斥着各种虚拟的三维场景和虚拟的三维人物。自上世纪七十年代开始,人们便开展借助于日益高度发达的计算机和计算机图形学来模拟真实人脸表情的变化并且取得了显著的效果。比如作为首部全电脑制作的动画玩具总动员中的胡迪的生动活波的表情让我感受到动画的效果。 2010 年上映的阿凡达以其震撼的视觉效果,生动逼真的人脸形象与场景,让我们领略到 3D 动画技术,尤其是人脸动画技术的魅力,但是,该影片高达 75%的内容其实是在计算机图形学结合表演捕捉和虚构的环境生成的。近段时间以来,我们见证了功夫熊猫中胖嘟嘟可
22、爱的熊猫阿宝,捉妖记中胡巴的虚拟构造以及疯狂动物城中尤其是闪电形象的惟妙惟肖的表现,无一不体现出人脸建模和表情动画的无穷魅力,这使得三维虚拟动画技术有着长足的应用场景和广阔的应用市场。如何快速并且鲁棒性的生成具有真实感的人脸模型和人脸表情动画一直是一个具有挑战性的研究课题。这是由于人们天生的对表情熟悉程度以及对人体五官的敏感程度,稍微产生一点细微的偏差不足都会引起人们的迅速关注,另一方面,如何确保三维动画技术能够实时显示,易于移植性是另外一个需要考虑的问题。其中两个具有代表性的课题是 3D 虚拟人脸的可视化言语表达和情感模拟的动画实现,主要共同原因有两点:(1)3D 虚拟人脸的生理结构复杂和表
23、情变化的无定形态使得难以采用数学模型或物理模型近似地对其运动进行精准的建模;(2)它们的运动规律复杂,3D 虚拟人脸需要模拟人脸复杂的表情运动以及发音器官的发音动作,同时也必须要做到脸部的各个器官协同一致,模拟出具有真实感的人脸自然表情动画也比较困难。目前,这两类技术的研究均不成熟,是亟待解决的问题。兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 2言语和情感是人们相互交流的主要方式,也是获取信息的主要载体。通过言语表达和情感模拟研究的系统产生的最具代表性的成果是言语表达和情感机器人的诞生。这样的机器人需要实现和人、环境进行交互的交流,且具有一定的“人性”。虽然这一产业目前还处
24、于初级发展阶段,技术还不够成熟,但也取得了一定的研究成果。美国公司 Hanson Robotics 打造的首款女机器人索菲亚,可以模拟出真实人的那份眼神和表情,几乎可以达到以假乱真的地步。微软公司推出的小娜通过对交流对话中的语境与语义的理解,可以实现一般的人机对话;之后推出的智能机器人小冰,可以感知在和人交流过程中人的言语表达的表情和情感,从而做出适应性的应答交流。图灵机器人采用多模态交互方式,能够进行语义分析、自然语言对话、深度问答等人工智能技术服务,同时也支持情感识别和情感表达的功能。中国科学技术大学在 2016 年隆重推出的美女机器人- 佳佳,以真实的美女脸部和身材为原型,以人的实际尺寸
25、和五官精心打造。不但颜值爆表,具有高仿真性,而且能够实现一定情景的人机对话,并且可以做到应答入流,渐入佳境,实现跨洋的人机交流。另外,在情感上和语气上也有很好的体现,可以转动眼珠和点头和摇头,具有对话理解、面部表情、口型和肢体动作搭配,协调同步的功能,动作与表达内容的适应性很好,可以做到具有很高的真实感。出现于最强大脑上的百度机器人小度,则代表了人工智能的最高水平,其在人机对话的流畅性,视听觉领域的霸占统治地位,可以实现对交流意图的理解,同时也具备情感连接的能力,能与用户进行情感互动,在人机大战中的绝对优势让我们感叹于我们的科技成果。当然,能够进行言语交互、情感交流、情感认知和理解表达能力都突
26、出的机器人是我们当下的任务之急。但是,实现这一目标的前提和条件是需要具有可视化的言语表达和情感模拟的系统,这就需要我们首先对 3D 人脸模型的建立以及对人脸的言语表达和情感的模拟进行研究。1.2 国内外研究现状以及研究意义1.2.1 国内外研究现状概述语音可视化,即通过直观地呈现可见发音器官的发音运动,合成生动逼真的说话人脸模型动画一直以来是一个非常活跃的研究课题,因此建立一个具有真实感的 3D 人脸模型和人脸动画是目前计算机图形学、计算机视觉领域最直接的问题。自上世纪 70 年代 Parke 完成了第一个参数化的三维人脸动画 1 以来,三维人脸动画技术便取得了飞速的发展,Platt 提出了一
27、种物理肌肉的人脸表情兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 3模型 2,该模型通过对肌肉施加压力来达到对弹性皮肤网格进行控制和变形,从而得到人脸表情动画。Waters 3等人提出了采用多边形网格建模的方法,通过不同局部的变形区域的人脸网格控制顶点的向量来模拟人脸面部的表情。Lee4等人利用物理装置获得三维数据和纹理信息,然后通过插值方法来获取特定人脸模型并为其添加纹理信息。Pighin 5等人提出从照片中提出人脸若干个特征点,并将二维的特征点映射到三维的人脸模型上去,其缺点是需要人工标定大量的特征点和计算的复杂性。Volker Blanz6等人提出了一种新的基于统计的人
28、脸建模方式,其优点是输入简单,不会出现奇异的失真,缺点是建立的人脸库比较麻烦,并且具有年龄的局限性。Denis 7等人基于立体视觉的原理,利用二维的正面和侧面的人脸照片,根据角度的不同提取三维信息,从而建立虚拟的三维人头模型;Ersotelos 8等对真实感的人脸与建模技术进行了总结;提出了数据驱动的合成方法,主要是基于数字图像处理理论。我国在可视化语音和人脸动画方面的研究虽然起步相对较晚,但是发展速度还是较快的。哈尔滨工业大学的晏洁 9-10针对人脸图像的合成、表情的合成取得了显著的成果 11。中国科技大学在语音特征提取、语唇同步和语音可视化方面取得了一定的成果 12。中国科学院计算技术研究
29、所和浙江大学等研究机构也用二维的人脸照片经过一定的算法实现三维的重建 13。语音可视化其实就是将听觉信息通过计算机等技术手段转化为视觉信息的一个处理过程。通常的一个做法就是建立一个虚拟的人脸模型达到“说话” 的目的。人脸模型包含着人脸建模和人脸动画两个方面。人脸建模是实现人脸动画的前提和基础;人脸动画是人脸建模的目的和归宿。因此,建立一个表情丰富,生动逼真,易于实现的三维人脸模型一直是计算机图形学、计算机视觉和模式识别领域的活跃热点研究之一。但是三维人脸建模始终是一个极具挑战性的难题,一方面由于人脸具有非常复杂的几何形状和生理结构,必须通过足够的技术手段来模拟这些特征 14;另一方面视觉语音合
30、成中一个关键的问题是人脸模型的建模方式,纹理,光照等条件的处理。同样具有通用性和实用性以及成本代价不昂贵的三维人脸模型也是一个制约的因素。首先是手工建模,这个是需要专业的三维技术人员,以三维软件平台为基础,以人脸生理解剖学为背景,人工的手动描绘出三维人脸模型,这种方法的优点是思想比较简单,不受外界的干扰,完全出自于绘画者的手工,缺点是制作费时,需要大量的手工,且对人员专业要求较高;其次就是特征建模,它需要从不同的角度对同一幅图像或视频中跟踪并提取人脸的特征标记点的二维位置信息从而得到三维坐标信息,然后通过变形插值算法重建三维人脸模型。它的优点是方法也比较简单,思路清晰,缺点是视角的选取具兰州大
31、学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 4有很大的依赖性,同时对精确度以及算法的实现有很高的要求;再者就是统计建模,它需要首先构建一个比较大且通用的人脸数据库,然后选取一张人脸照片建模时,就需要用人脸库中模型通过线性组合的方式合成并匹配这个人脸照片。它的优点是输入比较简单,只需要一张照片即可,它的缺点是需要前期大量的准备工作,需要大量的人脸数据库作为铺垫,因此,后来合成的人脸模型好坏程度直接取决于数据库的大小和种类。另外就是基于扫描建模,首先通过扫描仪器获得三维人脸数据信息,其次,对获取的三维人脸信息提取出三维数据点的坐标作为模型控制点来构建人脸模型 15,然后用一定的变形算
32、法来对人脸的模型进行变形。它的优点是精确度比较高,模型比较精细,缺点是需要高精度的仪器,对数据采集的好坏具有很大的依赖性。许多专家和学者已经实现的三维人脸建模方法主要分为以下四类:手工建模、特征建模、扫描建模、统计建模 16。如下图 1-1 所示为三维人脸建模的总体框架。图 1-1 三维人脸建模的总体框架 人脸动画是计算机图形领域的主要内容,是一种虚拟现实技术。通常三维人脸动画具有虚拟性、模仿性、综合性和直观性的特点 17。相比于二维动画技术,它具有更高的维度,包含更多的空间信息,对光照,颜色,姿势等变化具有鲁棒性。目前根据动画的实现原理不同可以大致分为两类:基于参数控制的方法和基于数据驱动的
33、方法。参数控制法就是以一定的人脸网格模型为基础,设置一定的参数和变形规则来控制模型中不同的特征点和位移从而达到驱动人脸表情和口型的变化。通过关键帧插值法来合成不同的人脸动画效果。这种方三维特定人脸建模应 用虚拟教学动画制作影视制作视频电话. . .头发模型眼睛模型嘴唇模型.三维数据 二维图像激光扫描结构光学法多摄像机无组织图像有组织图像手工建模特征建模扫描建模统计建模标准模型兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 5法的优点是数据量小,可以通过设置少量的参数控制点驱动人脸动画的形成,当然,它的缺点是合成的人脸动画不自然,细节不突出,对于一些复杂的口型和表情模拟的效果不好
34、。数据驱动法就是根据人脸的结构特征,跟踪和提取人脸说话时的主要面部器官运动轨迹,然后根据这些运动轨迹的特征数据,经过处理后得到人脸的特征参数坐标,最后通过一定的形变算法来驱动人脸动画的合成。这种方法是采集真实人的脸部运动数据为前提。它的优点是具有很高的真实度,合成的人脸动画细节效果突出,缺点是算法比较复杂,需要采集比较多的精确的数据。数据的准确获取是难点所在,这就需要比较精密的仪器来跟踪或者是扫描人脸的运动情况,然后获取人脸的面部动作信息。和人脸建模的方法类似,不论是基于参数控制的方法还是基于数据驱动的方法都可以根据原理的不同进一步细分不同的方法,相关的一些具体的人脸动画方法的分类如下图 1-
35、2 所示。其相同的技术点都是对人脸几何解剖的划分,人脸功能区域的定义以及控制变形技术。但是,合成精确合理的具有真实感的人脸动画也非常困难,一方面是需要对多个脸部的运动器官做到协同发音,共同作用;另一方面需要对皱纹、纹理和颜色的微妙的变化做出细节上的描述。从人脸建模的实现来讲,一般都是先合成中性的人脸模型,然后对中性人脸模型采取一定的变形算法或者是驱动方法来得到特定的人脸模型。其基本思想就是基于人脸的相似的面部结构和发音动作这个生理基础。人脸动画方法分类基于参数控制的方法基于数据驱动的方法基于几何模型的方法基于解剖结构模型的方法基于关键帧图像的方法基于人脸组件的拼接方法基于图像序列的拼接方法图
36、1-2 三维人脸动画分类方法从三维动画角色的设计上来说,3DSMAX 和 Maya 是目前国内外比较流行的软件。尤其是 3DSMAX,由于其性价比高、容易上手、使用者众多和便于交流的特点,在三维动画游戏,广告设计和电影制作上具有很大的优势。因此,兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 6本文的三维人脸模型的构件(眼睛、鼻子、头发、牙齿等模型)就是在3DSMAX 软件中完成,这样在专业的三维软件中完成的 3D 人脸模型可以减少以往建模中在时间和精力的损耗,避免了用冗长代码的繁杂性,并且具有很好的真实感和立体三维场景效果。同样,以上不论是人脸建模的方法还是人脸动画的方法都没
37、有严格的界限划分,通常它们是相互交叉的。建立一个具有真实感的人脸模型和人脸动画是需要几种方法共同运作完成的。1.2.2 研究意义言语作为信息交流的载体;情感作为信息的表现形式。因此建立和合成一个具有言语表达和情感模拟的会说话的 3D 人头像模型系统具有重要的研究意义。就本文现在的研究的意义具体体现在:(1)可视化语音识别视觉语音合成是目前正在研究的一个热点领域,本文合成的 3D 人头像系统,可以实现带有言语表达,表情、韵律和对应性良好的嘴部动作,基于DFFD(狄利克雷自由变形算法),采用 FacialCapture 设备采集数据进行驱动而成,不仅可以用在视觉语音合成,还可以应用在视听语音识别上
38、。(2)强大的可移植性和先进性本文的 3D 人头像系统和相应的算法完全是基于 C/C+和 OpenGL 工具实现的,人物模型则采用 3DSMAX 创建,它不依赖于某一个系统或者是某一类平台,可以在平台之间自由的切换,可以做到移植性强,通用性高。另外实现显示的接口图形库是 OpenGL,这也是计算机图形学领域非常常用和比较先进的工具。(3)言语教学和康复训练本文设计的连续语音 3D 人头像系统也可以应用在言语教学和康复训练中。传统的教学模式依靠真实人现场授课,听众难以做到全神贯注,时间上更无法自由支配,即使完成一对一的特训辅导也是高昂的培训费用和教学成本。本文的研究提供的针对中文的三维说话人头像
39、连续言语表达运动模拟系统,借助于强大的互联网和 IT 技术支撑,通过对发音口型和面部动作的可视化,加载上同步的语音和文本资源,从听觉信息和视觉感知两个方面来进行言语的理解。可以方便的实现虚拟人教学,对于一些言语障碍者、听力受损者、自闭症患者以及汉语爱好者的外国人可以随时随地的进行学习、训练。与此同时,本设计还可以实现情感表情模拟技术,可以对于面瘫患者起到一定的指导意义。(4)生活娱乐和影视动画制作兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 7本文的研究内容和研究方法可以为游戏开发者给予一定的启发,可以将三维技术对游戏中的人物和场景进行精细的建模,可以达到良好的模拟效果,给人
40、身临其境的感觉。对于面部整形手术和医学研究者可以先对虚拟的人脸模型进行手术和展示解剖的人脸效果,减少手术或研究失败带来的风险。对于电影特效可以通过变形技术实现夸张的效果;对于动画制作,可以建立良好的动画口型和表情模拟。同样 3D 人头像系统在电子商务、视频会议、虚拟主持等方面也具有很大的市场可待开拓。简而言之,通过虚拟现实和计算机图形学技术实现一个 3D 虚拟的会说话的人头来增加视觉上的信息,结合语音信息形成双模态的语言交流,可以避免语音信息在传播过程中的丢失和在添加视觉上形象化的发音动作,增强认知效果。添加情感的模拟效果,不但可以让听着自然的看到说话人的表现形式,而且是以怎样的方式情感方式表
41、达的。这种视觉上的反馈可以让我们更加友好的继续交流进行,从而提高交流过程中言语的可懂度和真实度。总之,获得高灵敏度的面部发声三维动作信息,建立视觉空间和声学空间的映射关系,探究三维视觉数据的精确建模是一项非常值得研究的课题。1.3 本文主要工作及内容安排为了能够精确、真实表达真人说话时的言语动作,面部信息以及表情动画。也为了实现三维虚拟说话人的言语表达和情感模拟。本文选择采用数据驱动,扫描建模与 DFFD(狄利克雷自由变形算法)相结合的方式完成三维人头像说话动画。该 3D 可视化模型是一个带表情、韵律和嘴部运动的连续语音的合成模型,具有很好的逼真度和友好性。结合同步的语音信息和二维视频流数据,
42、可以进一步的从音-视双角度上进行语音可视化研究,采用面部运动捕捉仪(FacialCapture)采集的数据作为原始的驱动数据,它记录了真实人说话时的面部三维发音动作轨迹和表情动作轨迹,并且具有很高的精确度和准确率。对于言语表达实现,我们只需要采集纯文本中中性的汉语语句;对于情感模拟的实现,我们可以采集具有情感色彩的语句。通过在脸部不同的功能区域设置标志记录点,跟踪真实人在说话时的脸部运动状态,通过对控制点的控制与变形,建立真实人特征数据与三维人说话模型之间的映射关系,也是语音信息到面部视觉动作信息的同步映射关系。使用 DFFD 变形算法,进而驱动人脸模型动画的效果,利用 OpenGL 添加光照
43、,纹理映射等信息并将 3D 人头像系统显示出来。兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 8从而研究语音、脸部动作、情感表达等之间的多种复杂的映射关系,探究其原理,旨在建立一个会说话和表达的 3D 人头像系统。本文的主要研究内容如下:(1)基于 DFFD 变形算法的基本原理,在三维空间上设计并实现了 DFFD 算法的编程。本文在 Windows 环境下利用 Visual Studio 2010,采用 C/C+混合编程,并利用该算法和 OpenGL 工具完成了动画的设计和显示操作。本文设计的DFFD 算法,具有函数接口良好,其控制点和控制网络可以灵活的设置,可以方便的查看中
44、间的过程等几大优点。(2) 实现了具有言语表达和情感模拟的 3D 虚拟人头像系统,该系统以采集真实人的数据为基础,映射到模型系统中,从而驱动虚拟的 3D 人脸动画。该系统克服了传统合成的虚拟人头像中说话的表情木讷,达到口型、面部表情和眼睛运动的协调同步的优点。(3)为了获得多种不同的言语表达,采集了关于中国科学院声学所北方汉语数据库(CASIA)总共 18000 多句话的面部运动数据库,该数据库不仅可以用来驱动 3D 人头像系统,也可以用来做视听语音识别研究。另外,对情感语音的数据也进行部分的采集处理,并且模拟人基本的情感表达,也得到了大致可观的效果。本论文的研究工作共分为六个章节,各章节内容
45、安排如下: 第一章为绪论。首先从引言出发引出本文的研究课题,接着介绍了目前人脸建模和人脸动画的国内外研究发展的现状,让读者对此领域所了解。其次总结了本文研究的必要性和现实意义。然后做了方法上的大致介绍,初步让大家了解本论文所要做的主要内容。第二章为狄利克雷自由变形算法和 OpenGL 图形学技术。首先介绍了DFFD 变形算法的发展历程,然后分别详细地介绍了实现 DFFD 算法的三个主要模块: Delaunay 三角划分; Voronoi 图的计算;Sibson 坐标计算。最后介绍了实现 3D 可视化言语表达和情感模拟人头像系统的图形接口 OpenGL 技术,主要介绍了 OpenGL 纹理映射技
46、术以及工作流程。第三章为 3D 可视化人头的实验设计和数据处理。首先是对实现 3D 可视化言语表达和情感模拟的实验设计,主要包括实验平台的介绍,实验录制数据语料库和被试着的选取,实验过程中的注意事项以及数据采集。然后是对实验数据的处理,主要的处理过程包括:音频-动作数据同步和音频切割;运动数据的离群值检测和修正;去除运动数据的刚体头部运动;运动数据的姿势矫正;真实数据映射到模型坐标系中。对于每种处理过程都做了具体的介绍并且大部分给出了处理前后的对比图,并且达到处理的预期效果。兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 9第四章是 3D 可视化言语表达和情感模拟的系统实现。首
47、先是系统整体框图的介绍,然后对系统的原理从多个方面进行了介绍:算法和实现接口、数据初始化、事件监听、头部运动数据的处理问题和系统的实现,并且用原理框图或者是流程图进行了描述,并对其中原理进行阐述并且通过 C+编程和OpenGL 技术在 Visual Studio 2010 中得到编程实现。第五章是实验结果与分析。本章首先介绍了实验结果,主要包括处理数据的原始模型显示,静态帧和关键帧的提取,其次是 3D 说话人系统的控制点、Delaunay 划分,三角网格的显示以及监听命令按键中的左旋和右旋操作。然后就是 3D 可视化的连续语音的言语表达效果和情感语音的表情效果等,最后对系统进行了整体系统评估,
48、这里主要介绍真人实验评估实验,通过真人的主观感受来评判系统的效果和性能。第六章是总结和展望。本章对本论文所从事的工作进行了总结,根据自己的系统设计过程中所遇到的问题提出了不足之处和对未来要继续进行的工作的展望。1.4 本章小结本章主要介绍了语音可视化的发展和现状,从人脸建模和人脸动画两个方面分别从基本的实现方法,优缺点上进行了详细的介绍。然后对对本文的研究意义做了阐述。让读者了解到本文的可行性和必要性。最后初步让大家了解本论文所要做的主要内容并给出了本文的写作安排。兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟研究 10第二章 狄利克雷自由变形算法和 OpenGL 图形学技术2.1
49、 变形算法简介变形在物理学上的概念是:物体由于受到外力的作用而产生物体体积或形状变化的效果。通俗的来讲就是按照实际的需要来改变物体几何模型的形状。变形技术近些年已经成为几何构造和计算机图形学领域中非常重要的工具,并且有着广泛的应用。变形技术已经早期在电视、广告和动画中应用比较的变形算法为 Morphing(渐变) 。它的基本原理是当两个物体可塑性比较好,并且很容易建立对应关系时通过变形技术可以实现比较的变形效果。Morphing 技术在二维图像上比较成熟,可以将两个相关联的物体进行变换并且取得不错的效果。如将一辆银色的小轿车缓慢滑行渐变成一只老虎等。但是这种方法对于三维物体的渐变效果却不是很好。这是因为三维物体的拓扑结构和顶点边数比较复杂,难以建立对应的变形关系。FFD(free-form deformation)算法 18是计算机动画和几何建模中的一种经典三维变形算法,该算法实现的前提是:假设待变物体具有很好的弹性并且容易受外力产生形变,它的基本思想是将任意形状的物体嵌入到一个平行六面体的盒子中,建立物体和控制盒之间的映射