1、I分类号: 密级: 研 究 生 学 位 论 文论文题目(中文)3D 可视化言语表达和情感模拟探究论文题目(外文) The research on 3D visual speech expression and emotional simulation研究生姓名学科、专业 电子科学与技术、电子与通信工程研究方向 语音信号处理与模式识别学位级别 硕 士导师姓名、职称 论文工作起止年月 论文提交日期 论文答辩日期 学位授予日期 IIIII3D 可视化言语表达和情感模拟探究摘要语音可视化是语音合成研究领域中的一项重要的分支,具有真实感的 3D 人言语模型和情感表达是计算机图形学领域中的两个非常重要的和
2、具有挑战性的课题。人脸表情运动的微妙性和多样性、口型动作与文本或声音的复杂对应性建模理论正是难点所在。论文结合语言学和计算机图形学的知识,建立带说话、嘴部动作、韵律和面部表情等的 3D 说话人头像动画模型,在虚拟动画、游戏和言语康复训练以及虚拟教学等领域都有重要应用。论文使用直接面部跟踪技术采用 FacialCapture 设备采集发音特征点,将3D 虚拟人脸分成几个运动相对独立的功能区域,使用狄利克雷自由变形算法DFFD 和刚性的旋转平移变换来模拟 3D 说话人头像功能区的动画,通过不同功能区域交叉控制点,模拟不同功能区的相互影响。另外在情感语音模拟上使用带表情的文本数据驱动,与此同时采集并
3、处理对应的语音信息,作为音视频对照和同步的一个研究方向。然后,本文设计了人工实验来对模拟出来的言语和情感效果进行验证。最后,我们对本文的研究工作做了总结,并对当前存在的不足和问题进行了分析和展望,并对未来的可能的研究方向做了憧憬。关键词:语音可视化,虚拟教学,DFFD,运动轨迹IIThe research on 3D visual speech expression and emotional simulation AbstractImportant Material Monitoring System is an important remote monitoring system, it
4、is in real-time, high accuracy and efficiency for remote material information management. According to current technological developments, it is a fusion of the IOT technology, high-end wireless transmission technology, more advanced information technology, computer processing technology and modern
5、sensor technology, etc. As an important part of dynamic material monitoring system, the Important Material Monitoring System (IMMS) based on BD short message achieves the function of real-time remote moving supplies data uploading.In this paper, the proposed two-way BD message IMMS integrates the tw
6、o-way message communication and Location of BD-I, GSM/GPRS location based service (AGPS) and wireless communications, ZigBee wireless positioning and popular technology such as embedded system. The two-way BD message IMMS can receive real-time information of material location generated by BD positio
7、ning and AGPS joint ZigBee wireless base station, and upload to the backend monitoring center. By this way, dynamic positioning, statistics and monitoring materials of remote real-time monitoring and other important functions are achieved. In this paper we will introduce the main researches as follo
8、wing: First, based on the monitoring and control system function requirements, the generation of BD two-way message communications, GSM/GPRS and ZigBee positioning of base station positioning communication understanding, we give the preliminary on the systems overall design ideas, to achieve the mai
9、n function modules of type selection and complete hardware platform design; Second, we implement the monitor display applications, according to the design of realizing the wireless remote monitoring of important materials. It is mainly for two-way message positioning communication data transmission
10、process,ng GSM/GPRS communication location based service data processing and data transmission to complete the monitoring center system and using the data interaction between terminal system; Finally, test software for each communication module unit and the overall communications of dynamic monitori
11、ng system, to ensure that monitoring and control system is reliable and stable. IIIKey words: BD Short Message,AGPS Location Based Service,ZigBee,Dynamic Monitoring目 录中文摘要 .IIAbstract III第一章 绪论 11.1 引言 .11.2 国内外现状以及研究意义 11.2.1 国内外研究现状 .61.2.2 本文的研究意义 .61.3 本文主要工作及内容安排 31.4 本章小结 5第二章 狄利克雷自由变形算法和 Open
12、GL 图形学技术 62.1 变形算法简介 .62.2 DFFD 算法总思想 82.3 DFFD 算法 原理 .142.3.1 Delaunay 三角划分 82.3.2 Voronoi 图 .82.3.3 Sibson 坐标计算 .112.4 OpenGL 图形学技术 .142.5 本章小结 .14第三章 ZigBee 无线定位软硬件设计 153.1 ZigBee 无线定位技术介绍 .153.2 ZigBee 模块通信协议栈 ZigBee2007/PRO 163.3 ZigBee 模块硬件设计 .203.4 本章小结 .22第四章 动态监控系统软硬件设计 .234.1 STC15W4K60S4
13、系列单片机介绍 .234.2 动态监控系统主控制器底板与控制中心接收端的设计 244.3 ZigBee 模块 CC2530 终端设计 .284.4 监控系统底层控制软件设计 294.5 控制中心显示端软件设计 304.6 本章小结 31第五章 监控系统调试与测试结果分析 .325.1 监控系统软硬件调试方法 .325.1.1 北斗短报文通信调试 325.1.2 GSM 定位通信调试 365.1.3 ZigBee 模块 CC2530 定位通信调试 395.2 监控系统发射端与接收端调试 .425.3 本章小结 .43第六章 论文总结 446.1 本论文工作的总结 .446.2 对未来要继续进行的
14、工作的展望 .44参考文献 .46在学期间的研究成果 .48致 谢 .49兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 1第一章 绪论近年来,随着计算机科学技术和人工智能的飞速发展,三维人脸表情动画技术也飞速发展起来。三维人脸表情动画作品层出不穷,三维效果也越来越逼真。三维图像技术能够在计算机中建立一个虚拟的世界,来模拟真实物体,它比传统的平面图更加形象,能给观众以身临其境的感觉。由于其精确性,真实性和易操作性,目前广泛应用于军事、科技、医学、教育、娱乐等诸多领域。1.1 引言伴随着计算机技术和计算机图形学的等新兴技术的发展,人类社会已进入一个高度信息化的时代,有人提出,我们
15、将会处于真实世界、构造世界和虚拟世界的三元世界中。虚拟世界正在以蓬勃发展的势头融入了我们的生活。游戏、动画电影、智能语音机器人、高科技武器对战模拟以及其他的许多科学研究领域,都无不充斥着各种虚拟技术。虚拟技术给我们带来了很多便利,影响着我们的思维体验,也改变着我们的生活方式,诚然也会带来一些挑战。自上世纪七十年代开始,人们便开展借助于日益高度发达的计算机和计算机图形学来模拟真实人脸表情的变化,诚然,使用计算机合成的人脸表情动画技术已经广泛应用于电影特效,虚拟主持和动画制作。2010 年上映的阿凡达以其震撼的视觉效果,生动逼真的人脸形象与场景,让我们领略到 3D 动画技术,尤其是人脸动画技术的魅
16、力,但是,该影片高达 75%的内容实在计算机图形学结合表演捕捉和虚构的环境生成的。近段时间以来,我们见证了速度与激情7中保罗沃克的虚拟构造以及疯狂动物城中尤其是闪电形象的惟妙惟肖的表现,3 维虚拟动画技术有着长足的应用场景。如何快速并且鲁棒性的生成真实感的人脸表情一直是一个具有挑战性的研究课题。这是由于人们天生的对表情熟悉程度以及对人体五官的敏感程度,稍微产生一点细微的偏差不足都会引起人们的迅速关注,另一方面,如何确保 3 维动画技术能够实时显示,易于移植性是另外一个需要考虑的问题。其中两个具有代表性的课题是 3D 虚拟人头像和情感表情的动画实现,主要共同原因有两点:1)3D 虚拟人头像生理结
17、构复杂和表情变化的无定形态使得难以采用数学模型或物理模型近似地对其运动进行精准的建模;2)它们的运动规律复杂,3D 人头像需要模拟人脸复杂的表情运动以及发音器官的发音动作。目前,这两类技术均不成熟,例如,在很多动画电影中,虚拟角色的对话,只能看到简单的张嘴闭嘴运动, 疯狂动物城要好一些,但是口型与语音的对应性依然不完美,这些问题是亟待解决的问题, 兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 2语音和视觉是人类信息和知识的主要载体,也是人类进行学习和交流的重要工具,它们在人们日常生活的交流中作为传递信息的主要方式。人类感知外界最直接的方式是语音和视觉,这也正构成了人工智能的两
18、个研究课题:语音识别和合成以及计算机视觉。目前,国际上也正在兴起多模态感知的研究方式,可以用视觉来弥补语音,也可以用语音来弥补视觉,达到相互增强的效果。认知心理学研究表明,在环境噪声较大或听者有听力障碍的情况下,如果在处理声音信息的同时能显示一个“会说话的头像”,即能够表现说话者面部表情和嘴部、眼部等变化情况,则会大大加强人们对声音信息的理解和感知。同时,最新的研究表明,可视化的言语动态模拟过程可以刺激人们对内部发音器官运动轨迹的理解,通过建立一个言语 3D 虚拟人头像,研究语音与视觉的对应关系,来达到语音可视化的效果,无论是在科学研究还是实际应用中都有重要意义,可以用在言语康复训练、虚拟教学
19、以及新语种的学习等方面。语音可视化技术核心是语音技术与三维图像技术两部分,有几种研究途径:1)语音动画技术,即通过计算机图形技术构建二维或者是三维的头像,使用语音合成技术,人为的模拟各个音素的发音特征,包括口型,表情,韵律等内容,但是,这种方法太过复杂,肌肉控制参数难以选择,模拟的效果不是很理想;2)计算机图形学技术构建 3D 人头像模型,采集真人发音时的发音数据,通过数据来驱动虚拟 3D 人头像的面部运动,这种方法合成的语音有很高的真实度和自然度;3)利用机器学习等人工智能技术,学习语音或文本与发音器官运动和表情运动的对应关系,使用任意语音或本文来驱动 3D 人头像模型,这种方法避免了浸入式
20、的真人数据采集,目前也正处于研究阶段。陆续的有许多言语表达机器人逐渐地走入了人们的视野中,有的是以真实的机器人作为载体,有的则是以虚拟动画的形式出来,他们大多代表着当前最新的研究成果。美国公司 Hanson Robotics 打造的首款女机器人索菲亚,有 48个肌肉,33 个仿真器,模拟的那份眼神和表情,可以乱真。2015 年,北京龙泉寺打造了一款机器僧贤二,可以与人类探讨佛法,进行简单对话,其憨态表情也表现的惟妙惟肖。2016 年,中国科学技术大学精心打造的美女机器人佳佳的出现,也令观众耳目一新,她可以与人类进行简单对话,表情与口型动作与表达内容的适应性很好。微软打造的智能语音机器人小冰,可
21、以感知人类言语表达时的表情与情感,从而做出更好的应答,他们也正在试图以试听相结合的方式来研究人类的言语表达。语音可视化技术不仅结合了语音信号处理的技术,而且通过三维图像技术将语音应用表现出来。它通过建立一个基于生理结构的虚拟的三维人说话头像,形象、逼真的同步表达出语音的信息。基于语音产生机理和生理解剖学的语音兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 3可视化可以进行言语康复训练,虚拟教学以及新言语学习。1.2 国内外现状以及研究意义1.2.1 国内外研究现状概述语音可视化,即通过直观地呈现可见发音器官的发音运动,合成生动逼真的说话人脸模型动画一直以来是一个非常活跃的研究课
22、题,它牵涉到计算机图形学、解剖学、认知心理、模式识别等多个学科,属于一个交叉的研究了领域。自上世纪 70 年代 Parke 完成了第一个三维人脸动画 1 以来,此后很多研究学者在这个领域取得了很多重要的研究成果。文献2中 Denis 等人采用从正面与侧面两张不同角度的人脸照片中建立三维人头的虚拟模型;Ersotelos 等 3对真实感的人脸与建模技术进行了总结;提出了数据驱动的合成方法,主要是基于数字图像处理理论。近年来,随着计算机技术和图形学的发展,三维说话人模型动画取得了很大的发展,这主要分为两个方面:人脸建模和人脸动画。人脸建模就是使用计算机三维图形技术,在虚拟的三维空间下构造一个形象、
23、逼真的人脸模型;人脸动画就是通过使用三维变形技术,驱动人脸模型,模拟真实人脸说话的表情、动作。但是,三维人脸建模始终是一个极具挑战性的难题,一方面由于人脸具有非常复杂的几何形状和表面纹理,必须通过足够的技术手段来模拟这些特征 4;另一方面视觉语音合成中一个关键的问题是头模型的建模方式,纹理,光照等条件的处理。早期在计算机性能低下,相关理论不大成熟的情况,采用的是基于向量图的二维面部拓扑结构。再后来提出了三维线帧模型,这是一种基于光栅图的方法,用复杂多边形组成人的头结构,这种方法的难点在于时变运动控制参数的推导。还有从解剖学上对头进行建模,定义好皮肤、肌肉和骨骼的描述,是时变的肌肉控制参数来改变
24、形状模拟运动方式,然而困难的是肌肉参数推导机制很不直接,测量也非常复杂,而且肌肉特征的控制参数只有部分可见。动画其实就是一帧一帧的静态图片快速切换过程,也有基于强大的计算机系统,在一系列面部图片之间切换来模拟头部运动。另外就是基于变形算法,通过捕捉少数的面部控制点,通过变形算法来计算整个人脸的变形点 5。人脸动画是计算机图形领域的主要内容,是一种虚拟现实技术。通常三维人脸动画具有虚拟性、模仿性、综合性和直观性的特点 6。相比于二维动画技术,它具有更高的维度,包含更多的空间信息,对光照,颜色,姿势等变化具兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 4有鲁棒性。三维动画的应用很
25、广泛,可以辅助教学,可以作为类人计算机代理,可以用在动画卡通电影中,还可以应用在游戏娱乐中。我国对这方面的研究起步比较晚,对人脸模型动画的研究目前主要处于人脸建模方面,中国科技大学在语音特征提取、语唇同步和语音可视化方面取得了一定的成果 7。然而在我国的一些动画电影制作当中,通常只考虑动画人物和场景等满足剧本要求即可,很少考虑人物的环境内在特点,在虚拟人物设计和渲染方面也远远落后于日本等一些发达国家,这样的动画难以引起观看者的兴趣。现在我们国家也在控制人物运动和人物造型设计上做研究,这也加快了动画企业和游戏企业的发展 8。从三维动画角色的设计上来说,目前国内外都是以 3DSMAX 和 Maya
26、 为主,这两款软件提供了多种建模方法,但主要还是多边形建模。尽管如此,3DSMAX和 Maya 建模是一个很费时费力的过程。无论是国内还是国外的动画电影,观者可以感受强烈的夸张效果,这是一种喜剧色彩。然而需要应用在类人计算机代理和虚拟播音员的场景中,我们需要其尽量的真实性,无论是从人物构型方面还是从人物运动,言语表达时的表情和口型等与表达内容和声音的一致性,都需要与真实人物有很高的类似性,目前国内外还不能在这方面达到很好的效果。情感作为主观认知经验的表达,它既是主观感受,又是客观生理的反应,通常情感的表达伴随着言语的产生而发生,由于情感大多具有目的性,可以帮助我们理解与他人的交流,表达内心的意
27、愿,影响他人对我们的态度,甚至使别人的情绪也发生改变。所以把握交流沟通中的情感对我们来说是十分必要的。目前已有很多表情方面的研究,从合成情感模拟采用的技术的不同,主要分为以下几类;(1)混合样本人脸表情合成;(2)直接表情迁移;(3)基于 Sketch 的人脸表情编辑与合成;(4)基于机器学习的真实感人脸表情合成;(5)高分辨率人脸表情与细节的提取与合成 9。目前这些的研究中大多都是纯表情,没有跟言语表达结合起来。使其应用范围很受限制,另外一方面,这些表情需要很大的情感空间,浙大的周昆等人建立了 150 人 20 种表情的表情数据库 10-11,并将该数据库成功应用到了表情的实时计算和表情驱动
28、中 12-17,他们的研究重点关注的是实时性,以及可以面向任意用户,但缺点就是表情有些粗糙,而且只是纯表情,没有言语表达方面的信息。1.2.2 研究意义视觉语音合成是目前正在研究的一个领域,本文合成的 3D 人头像系统,带有表情、韵律和对应性良好的嘴部动作,基于 DFFD(狄利克雷自由变形算法) ,采用 FacialCapture 设备采集数据进行驱动而成,不仅可以用在视觉语音合成,兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 5还可以应用在视听语音识别上。本文的 3D 人头像系统和相应的算法完全是基于C/C+和 OpenGL 工具实现的,人物模型则采用 3DSMAX 创建,
29、这也是计算机图形学领域非常常用和比较先进的工具。本文带表情的连续语音 3D 人头像系统也可以应用在辅助教学和类人计算机代理中。此项研究提供的针对中文的三维说话人头像连续发音运动模拟系统,将弥补传统依靠听力进行语言训练的方法,填补市场上在此领域内的空白,使得语言学习和康复发声训练避免一对一的面授模式和高昂的培训或治疗费用,为广大的英语学习者,普通话学习者,言语障碍者、听力损失者和患有自闭症的人士的发声训练和康复带来福音,具有广阔的市场前景和重要的社会经济效益。通过一个会说话的人头,增加视觉上的信息,结合语音信息形成双模态的语言交流,基于图形变形的三维说话人头像连续语音模拟,采用的图形显示的效果,
30、增强认知效果。这部分研究在国外已经展开,根据文本语音的发音过程,利用面部运动捕捉设备采集的人脸骨架的三维位置数据的运动轨迹,同时进行面部摄像采集外部发音器官的运动图像。唇形识别和语音识别相结合的发音回馈训练,从视觉角度重现用户的发音口型,检测发音正确与否。本项目的软件系统依托越来越强大的互联网以及飞速发展的 IT 软硬件技术,全新的教育和学习模式正逐渐显示出其真正的价值和商机,而本项目研究成果将在技术上使得交互式智能型自动语言学习正真成为现实,也必将带来全新的教育商业模式,从而同时实现社会效益和商业价值。1.3 本文主要工作及内容安排为了能够精确、真实表达真人说话的时的发音动作,面部信息,本文
31、选择采用数据驱动方法与 DFFD(狄利克雷自由变形算法)结合的方式完成三维人头像说话动画。该 3D 可视化模型是一个带表情、韵律和嘴部运动的连续语音的合成模型,具有很好的逼真度和友好性。结合同步的语音信息和 2 维视频流数据,可以进一步的从音-视双角度上进行语音可视化研究,数据驱动的数据源采用面部运动捕捉仪(FacialCapture) 采集的数据,它记录了真人说话时的面部三维运动位移数据,设置控制点,并建立与三维人说话模型的映射关系,使用DFFD 变形算法,完成三维人说话动画,带表情的连续语音 3D 人头像系统也可以应用在辅助教学和类人计算机代理中。本文的主要贡献如下:(1)设计并实现了 D
32、FFD 算法。本文采用 C/C+混合编程,并利用该算法和OpenGL 工具完成了动画的设计。 兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 6(2) 实现了带表情、韵律和口型动作的连续发音 3D 人头像系统。本文提出基于 FacialCapture 设备的面部控制点驱动的 3D 人头像系统,为了获得多种不同的言语表达,采集了关于 CLDC 文本总共 40000 多句话的面部运动数据库,该数据库不仅可以用来驱动 3D 人头像系统,也可以用来做视听语音识别研究。另外,对情感言语的数据也进行部分的采集处理,并且模拟人基本的情感表达。(3) 本文设计言语表达 3D 人头像系统有非常友
33、好的交互操作界面,可以通过按键命令查看正面模型、侧面模型、左旋、右旋、开始/停止动画、查看控制点、查看 Voronoi 图、查看 Delaunay 划分以及查看构成 3D 人头像模型的三角面等,不仅方便各类用户使用,也方便相关研究人员查看相关的实现细节。因此,本文实现一个友好交互操作的三维说话人头像模型。本系统不仅能够产生正确的动画,而且它可以自定义表情,自定义发音动作,操作者可以根据自己的需要切换模式,是一个具有友好人机交互功能的系统。视觉语音合成是目前正在研究的一个领域,本文合成的 3D 人头像系统,带有表情、韵律和对应性良好的嘴部动作,基于 DFFD(狄利克雷自由变形算法)。本文的 3D
34、 人头像系统和相应的算法完全是基于 C/C+和 OpenGL 工具实现的,人物模型则采用3DSMAX 创建,这也是计算机图形学领域非常常用和比较先进的工具。本论文详细的内容安排如下所示: 第 1 章为绪论,首先主要介绍了目前语音可视化的发展和现状,让读者了解。总结了本文研究的必要性和现实意义。然后做了方法上的大致介绍,初步让大家了解本论文所要做的主要内容。第 2 章首先介绍了北斗双向报文通信的发展与现状、AssistedGPS 基站定位通信技术,然后分别详细地介绍了北斗双向报文定位通信模块的原理与具体技术参数、GSM 定位通信模块的原理与技术参数、北斗短报文 S/L 有源收发天线。第 3 章具
35、体介绍的是 ZigBee 无线定位软硬件设计,向大家介绍了什么是ZigBee 无线定位技术,怎么实现定位,对 ZigBee 模块通信协议栈ZigBee2007/PRO 做了详细的说明,提出了协议栈 ZigBee2007/PRO 的功能与优势。最后再具体的的介绍下 ZigBee 模块的选用与模块硬件部分电路是怎么设计的。第 4 章对整个动态监控系统软硬件设计做了全面介绍,对系统所用到的模块先做介绍,然后对主要芯片选型做了具体说明。以 STC15W4K60S4 系列单片机为核心,进行详细介绍了动态监控系统主控制器底板与控制中心接收端的原理图设计,介绍了模块 CC2530 模块实物设计,最后向大家展
36、现了程序设计与兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 7中心显示端软件的设计。第 5 章主要进行监控系统调试与测试结果分析,介绍了监控系统软硬件调试方法,包括北斗短报文通信联合调试、GSM 定位通信联合调试、ZigBee 模块 CC2530 定位通信联合调试。最后实现监控系统发射端与监控系统接收端联合调试。第 6 章对本论文所从事的工作进行了总结,根据自己的系统设计过程中所遇到的问题提出了不足之处和对未来要继续进行的工作的展望。1.4 本章小结本章主要介绍了语音可视化的发展和现状,并对本文的研究意义做了阐述。让读者了解到本文的可行性和必要性。然后 初步让大家了解本论文所
37、要做的主要内容。兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 8第二章 狄利克雷自由变形算法和 OpenGL 图形学技术2.1 变形算法简介对立体几何模型变形的研究有着很多年的历史,所谓变形就是按照需要改变几何模型的形状。早期的变形研究并没有利用什么变形算法,他们将几何模型的变形比作雕刻,那时变形这类问题的主要方法有三种 15:将已有的简单自由变形面与立体模型结合起来、三元参数超面片方法和隐平面(代数平面) 。在计算机图形技术中,FFD(free-form deformation)算法 16是一个经典的几何造型算法,它通过一系列的点构造一个网格,一般来讲是一个 lmn 的平行
38、六面体的盒子,接着把需要变形的三维物体放入这个网格内,使其建立与网格相对应的位置映射关系。之后相继出现了 FFD 一系列的扩展改进算法,来改进FFD 算法,弥补它的不足。文献17 中 Coquillart 提出扩展自由变形(EFFD) ,它可以使用非长方体形状的控制网格,从而克服了 FFD 在控制网格形状方面的一些限制;文献18 中 Kalar 提出有理自由变形( RFFD) ,它通过对每个控制点设置权重,来增加更多可能的变形效果;文献19中 Hsu 等提出直接自由变形(Direct FFD) ,它采用直接变形物体上的点而非控制点来对物体进行变形;文献20中 Lamousin 等提出非均匀有理
39、 B 样条自由变形(NFFD ) ,它替换了 FFD中的基函数,采用了非均匀有理 B 样条基函数作为差值函数,非均匀有理 B 样条基函数非常好的的局部特性与连续性,使得 NFFD 在进行局部变形时更加灵活,效果也更好,而且控制点的设置可以是非均匀分布的;文献21中Moccozet 等提出狄利克雷自由变形( DFFD) ,它与传统的改进算法有本质的不同,传统的改进算法只是在差值函数等方面做出了改进,虽然优化了 FFD 的效果与应用范围,但并未从根本上解决 FFD 控制网格的限制,DFFD 则不同, DFFD 算法采用 Sibson 局部坐标,突破了传统系列的 FFD 算法对控制网格设定兰州大学硕
40、士研究生学位论文 3D 可视化言语表达和情感模拟探究 9的限制,其控制点可以选择任意位置,控制网格可以是任意形状的凸包。2.2 DFFD 算法总思想DFFD(Dirichlet Free-Form Deformation)算法通过引用新的坐标系统,即自然邻居坐标(Sibson 坐标或希普森坐标 )突破了这一局限,从而可以把控制点设置在网格的任何位置,同时控制网格的形状也可以是任意的。DFFD 变形的局限性较小,选定好控制点后,DFFD 可以对控制点形成的凸包内的所有待变形点进行变形,凸包的形状自由度很高,突破了立方体控制网格的局限,由控制点集合决定。3D 模型通常使用的是 3 维笛卡尔坐标系,
41、 DFFD 算法引入了Sibson 坐标系,将凸包内的待变形点转换为相对于其邻居控制点的 Sibson 坐标,然后通过移动控制点来达到对待变形点的变形。总之,新坐标系的引入从根本上克服了 FFD 的限制,使 DFFD 算法更适合于复杂多变的几何变形。因此本文采用 DFFD 算法为变形算法来驱动三维人说话模型,模拟发音动作。DFFD 总体来说就是:给定一组控制点 以及控制点集合形成12P=p,n的凸包内任意一点 x,则 x 可以表示为相对于其邻居控制点的 Sibson 坐标,x的控制点可以是 P 中的部分点,也可以是 P 的中的全部点,这取决于 x 可以受到那些控制点的影响。假设 x 可以受到
42、P 中全部控制点的影响,则 x 可一表示成 ( ) , 就是 x 关于 P 的 Sibson 坐标。因此1nixup1ni12,nuDFFD 算法中的一个核心内容便是计算 Sibson 坐标,具体在下一节进行介绍。要获得变形后的 x 点坐标 ,需要移动控制点 P,设移动后的控制点集合为 ,其中, 为 移动后坐标点, , 为控制12P=p,n ipi iiipip点 的位移, 可以为 0。变形后,有 , 为 的变化量。要获得i ixx变形后的 ,只需计算出变化量 。已知的有 x 关于控制点集合 P 的 Sibsonx坐标 ,以及控制点的位移 ,根据 DFFD 算12,nu 12,nP法, 可以由
43、 和 进行表示。下面给出 的计算方法。P首先,通过控制点集合 构建 P 的 n 维 m 次 Bezier 单形,m12=p,n为常数,通常取 1 或 2。设 为 P 的1212(,.),|.)I nBqiIiin 维 m 次 Bezier 单形的控制点集,其中的 取 0 或 1,分别对应 P 中的,.n第 个控制点,取 0 时表示与该控制点无关,取 1 时表示有关。很明显,12,.ni当 m=1 时,B=P,即 P 的 n 维 1 次 Bezier 单形的控制点即为 P 本身。兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 10的计算表达式为:Iq1|()IJqpBIm(2-1
44、)式中, , 的取值为 0 或1212(,),nnJjjjj 12,njj1,因此 其实是 P 的另一种表示方式,如当 时,此时的Jp ,也即有 。 是伯恩斯J(1,0.)1(0,.)2(0,.).nppp1(/)JBIm坦基函数,其表达式为: , !(,),(,)nijkijknBrstrstjrstij(2-2)随着控制点集合 P 的移动,移动后得到 ,设P为 形成的 n 维 m 次 Bezier 单形1212(,.),|.)I nnqiIiim 的控制点集合,该 n 维 m 次 Bezier 单形的控制点的位移为 。至此,IIq可以通过下式进行计算:x| ()mIIxqBu(2-3)上式
45、中, 为 x 关于 P 的 Sibson 坐标。12,nu当 m=1 时, n 维 1 次 Bezier 单形很简单,它的控制点就是 x 的控制点 P 本身,此时 的计算非常简单,如下式所示:x1nixup(2-4)由式(2-3 )和(2-4 )可得:只要计算出 x 关于控制点集合 P 的 Sibson 坐标 ,并获得控制点 P 的位移 ,便可以计算出 x 的位移变化 ,从而得到u x变形后的坐标 ,这便是 DFFD 的基本思想。DFFD 算法的核心内容便x是在三维坐标系下 Delaunay 的划分和 Sibson 坐标的。2.3 DFFD 算法原理本节着重介绍 Sibson 坐标的计算,包含
46、 3 个主要步骤: 1)Delaunay 三角划分;2)计算 Voronoi 图;3)Sibson 坐标计算。2.3.1 Delaunay 三角划分二维平面下,Delaunay 三角划分的定义可描述为:如果点集的一个三角剖兰州大学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 11分只包含 Delaunay 边,那么该三角剖分称为 Delaunay 三角剖分。Delaunay 边的定义为,设 e 是点集中 a,b 两点的连线,如果存在一个经过 a,b 两点圆,且圆内不含点集中任何其他的点,则 e 是点集中一条 Delaunay 边。这一条件又称Delaunay 划分的空圆特性。任何一个
47、 Delaunay 三角形的外接圆的内部不能包含其他任何点。要满足 Delaunay 三角剖分的定义,必须符合下面两个重要的准则。(1)空圆特性。Delaunay 三角网是唯一的,在 Delaunay 三角形网中任一三角形的外接圆范围内不会有其它点存在。(2)最大化最小角特性。在离散点集可能形成的三角剖分中,Delaunay 三角剖分所形成的三角形的最小角最大。上述两个条件保障了 Delaunay 三角划分是最接近于规则化的三角网络并且具有唯一性。从这个意义上讲,Delaunay 三角网是最接近于规则化的三角网。比如在两个相邻的三角形构成凸四边形的对角线,在相互交换后,六个内角的最小角不再增大
48、。Lawson 提出了最大化最小角原则,并在之后据此提出了一个局部优化过程(LOP, local Optimization Procedure)方法。图 2.1 和图 2.2 给出了 a, b,c ,d 四个点在平面下的 Delaunay 划分和非Delaunay 划分两种情况。图 2.2 的三角划分就属于非 Delaunay,c 点在 abd 三点形成圆中不满足空圆特性,而且可以明显看出三角形 abc 和 acd 的最小角分别比三角形 abd 和 bcd 的最小角大,所以也不满足最大最小角的特性,如图 2.3所示。图 2.1 Delaunay 划分图 2.2 非 Delaunay 划分兰州大
49、学硕士研究生学位论文 3D 可视化言语表达和情感模拟探究 12图 2.3 两种三角划分是否满足空圆特性总起来说,对于给定的初始点集,有多种三角划分方式,其中 Delaunay 三角划分具有以下特征。 (1)最接近:以最近临的三点形成三角形,且各线段(三角形的边)皆不相交。(2)唯一性:划分的结果与划分选点的顺序无关。 (3)最优性:任意两个相邻三角形形成的凸四边形的对角线如果可以互换的话,那么两个三角形六个内角中最小的角度不会变大。 (4)最规则:如果将三角划分中的每个三角形的最小角进行升序排列,则Delaunay 三角划分的排列得到的数值最大。 (5)区域性:新增、删除、移动某一个顶点时只会影响临近的三角形。 (6)具有凸多边形的外壳:三角划分最外层的边界形成一个凸多边形的外壳。一直以来,Delaunay 的划分都被作为一项重要的研究课题。