1、中国科学技术大学硕士学位论文人脸器官拼接融合及其在人脸动画中的应用姓名:倪奎申请学位级别:硕士专业:计算机应用技术指导教师:董兰芳20090501摘要摘要人脸动画是广泛应用于计算机动画行业、游戏行业、远程会议、代理和化身等许多领域,是近几年来国内外研究的热点。其中,基于单幅图像的人脸动画的研究近年来引起了许多研究者的关注。基于单幅图像的人脸动画,对给定的一幅图像进行几何位置上的变换,能产生一些有趣的视觉效果,在影视娱乐、广告设计中常用来产生特技。基于单幅图像的人脸动画由于是在真实人脸图片的基础上做图像变形而产生,所以具有较高的真实感。本文提出并实现的一种基于单幅图像的人脸动画生成系统,在MPE
2、G一4人脸动画标准的基础上,采用了肤色模型等人脸特征点定位技术和Mesh-Warping的图像变形方法生成人脸动画,在口腔I艮球的处理上采用了图像拼接和融合方法,使得生成的人脸动画在保证实时性的同时获得了较为逼真的动画效果,本文主要内容包括:1) 调研并总结了人脸动画中的MPEG-4人脸动画标准、人脸特征点定位、图像变形和图像拼接融合技术,分析对比了这些技术的优缺点。2) 实现了一个具有较高真实感和实时性的基于单张人脸图像的人脸动画生成系统。将MPEG4中的人脸动画标准简化后应用到基于单张人脸图像的2D人脸动画生成中。可对人脸进行自动手动定位。选用了MeshWarping算法对图像进行变形,既
3、保持了较高真实感,又能满足系统的实时性要求。本文的主要创新有:1)在MeshWarping变形算法中,根据人脸器官运动的特殊性,在构造变形样条时,提出了整体样条和局部样条结合,横向样条和纵向样条分离的方法。在保持图像变形效果的同时,尽可能的减少了运算时间。2)提出了在极坐标上基于样条插值的人脸器官拼接算法。该算法可以较快的完成人脸口腔I艮睛器官样本图像与人脸图像的拼接和融合,使动画中出现张嘴效果时,能看较为清楚较为自然地看到舌头和牙齿等原图没有的器官。并且算法具有灵活性,通过选用不同的样条,可以在变形效果和计算时间之间寻找符合用户要求的折中点。3)通过该拼接融合算法,能将样本图像上的眼睛移植到
4、原图像上,以满足某些特殊的动画要求,并且移植后的眼睛在眨眼时能保持形状不变,还可以做出像对眼这样的眼球运动的动画。关键词:人脸动画MPEG一4人脸动画标准MeshWarping算法语音识别图像拼接图像融合肤色模型特征点定位AbstractAbstractFacial animation is widely used in many application areas,such as computeranimation industry,game industry,teleconferencing,agents and avatarsIn recentyears,it has been the
5、research hotspotIn this field,the facial animation based onone human face image attracts many researcherS attention in recent years。Thistechnology do geometric transforms on the human face imageIt can generate mayfunny Visual Effects and be used tO make special effects in movies entertainment andadv
6、ertising designFor the facial animation based on one human face image is transformed from thereal human face image,It has more sense of realityThis paper presents andimplements a system of facial animation based on one human face imageIt is on thebasis of MPEG-4 Facial Animation StandardFacial featu
7、re location technologiessuch as Human Skin Model,image warping technologies such as MeshWarping andImage Mosaics and Image Fusion technologies on processing moutheyes are used togenerate facial animation,for the realtime and reality effects of facial animationThemain work and achievements of the dis
8、sertation can be summarized as follows:1Technologies of MPEG一4 Facial Animation Standard,facial feature location,image warping image mosaics and image fusion are summarizedThe advantage anddisadvantage of those are discussed2Implemented a real-time and more natural facial animation system based ofon
9、e human face imageThe MPEG一4 Facial Animation Standard is simplified andapplied in this 2D facial animation generatingIt Can automanual locate the facialfeaturesUsing the improved MeshWarping algorithm to transform the image helpsto achieve the reality and real-time requirementsThe main innovations
10、of this paper are:1In MeshWarping algorithms,based on the particularity of facial organmovements,a spline building method of combining global and local splines andsplitting vertical and horizontal splines is proposedThe calculation time is reducedand animation is more nature2A human face organ image
11、 mosaics algorithm based on spline interpolation inpolar coordinate iS presented It Can mosaic and fusion the moutheyes sampleimages tO the face image quicklyBy this way,when the animation is opening theIIAbstractmouth,the tongue and teethBy choosing different spline,this algorithm is flexibleto use
12、 to balance the animation effect and calculate time3With this image mosaics and fusion algorithm,eye balls on the sample imagecan be moved to the human face image to meet the special effect requirement of facialanimationAfter this operation,the shape of eye balls call stay the same,and the effectof
13、eye ballsmovement such as crosseye Call be generatedKey Words:Facial animation,MPEG4 Facial Animation Standard,MeshWarpingAlgorithm,Voice Recognition,Image Mosaics,Image Fusion,HumanSkin Model,Feature LocationIII中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研
14、究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名: 尘整垒 签字日期:丝塑:三:兰z中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。厂锄公开口保密(年)作者签名:签字日期:倪考 导师躲盔塑导师签名:二重翌塑力一7,歹一7 签
15、字日期:第1章绪论第1章绪论11人脸动画的研究背景和意义人脸动画的研究开始于70年代初,至今已经有三十多年的历史了。生成真实感人脸动画是非常困难的。这是因为人脸的几何形状非常复杂,其表面不但具有无数细小的皱纹,而且呈现颜色和纹理的微妙变化,脸部运动是骨骼、肌肉、皮下组织和皮肤共同作用的结果,并且需要多个器官协调致,其运动机理非常复杂。而且我们人类生来就具有一种识别和理解脸部表情的神奇本领,任何微妙的表情变化都能够立即觉察出来,这就使得生成真实感人脸动画变得更加困难。近几年来人脸动画成为国际上的研究热点,原因之一是众多应用领域的需求驱动。计算机动画公司对最新、最强烈的视觉效果的追求是巨大的、永无
16、止境的。随着计算机生成的人物越来越复杂,迫切需要具有高度真实感的人脸动画。计算机动画公司为了达到最好的效果,往往不惜花费大量的资金和时间。除了计算机动画行业之外,人脸建模与动画还广泛地应用于游戏行业、远程会议、代理和化身等许多其它领域。原因之二是计算机处理能力和数据采集设备的不断进步。随着微机的处理速度和存储容量的飞速提升,原来需要使用高档图形服务器才能实现的人脸动画,现在可以在桌面的微机上实现。彩色三维激光扫描仪的出现,为人脸建模与动画提供了丰富的数据源。以前完全依靠手工来建立三维人脸模型,工作量太大并且容易出错,而现在能够比较方便地通过三维激光扫描或者从专业公司购买的方式得到三维人脸模型。
17、如果想得到更为满意的特定人脸三维模型,可以利用中性人脸模型通过适当图像变形【1】得到。1I1人脸动画的分类人脸动画技术主要有三种类型,即基于样本的人脸动画、基于三维模型的人脸动画和基于单幅图像的人脸动画。基于样本的人脸动画也称为数据驱动人脸动画,这种方法不需要建立三维人脸模型,而是通过对给定的样本(一般是一段说话的录像)重新进行组织来生成新的人脸动画。由于这种方法直接取材于样本,因此其最大优点就是真实感非常强,缺点之一是需要一段真人说话的录像,数据获取不太方便,缺点之二是没有1第1章绪论建立三维人脸模型,视点不能变化或只能小范围变化。这种方法一般用于只需要少量虚拟人物但是需要高度真实感的应用领
18、域,如电影与电视的虚拟演员、网络虚拟主持人等。t基于三维模型的人脸动画首先建立三维人脸模型,接着驱动人脸模型生成语音与口型同步播出的语音动画,人脸在说话时还可以带有各种表情。虽然这种方法目前在真实感方面还比不上基于样本的人脸动画,但是由于这种方法数据获取简单(只需要几张不同角度的照片),制作方便(不需要或只需要少量用户交互),能够生成逼真三维动画,因此这种方法可以广泛应用于需要大量虚拟人物但是真实感要求不太高的应用领域,如网络虚拟社区、三维语音动画聊天室、有声Email等。基于单幅图像的人脸动画是近年来图像处理领域中的一个新的分支,指的是对给定的一幅图像进行几何位置上的变换,能产生一些有趣的视
19、觉效果,在影视娱乐、广告设计中常用来产生特技。相比基于样本的人脸动画,基于单幅图像的人脸动画的优点是所需样本少,只要有一张人脸图像即可。相比基于三维模型的人脸动画,基于单幅图像的人脸动画的优点真实感更强,因此基于单幅图像的人脸动画得到相当范围的应用。1111基于三维模型的人脸动画基于三维模型的人脸动画主要有以下几种方法:关键表情插值法;参数化模型;基于物理的肌肉模型;伪肌肉模型,包括抽象肌肉动作模型、有理自由变形、径向基函数变形等:表演驱动的人脸动画;参数化模型与肌肉模型相结合的混合方法。 ,1972年,Parke使用摄影测绘技术得到人脸各种表情的多边形网格模型阻1,对不同表情的网格模型进行几
20、何插值来产生人脸动画,这种方法称为关键表情插值法。1998年,Pighin等进一步改进了Parke提出的关键表情插值法。Parke又分别在1974年和1982年提出并改进参数化人脸模型口儿制。1980年,Platt提出了第一个基于物理的肌肉控制人脸模型陌l。在该模型中,人脸表面(皮肤)的多边形网格点之间通过模拟弹簧相互连接,这些网格点同时也与人脸模型的底层骨骼结构之间通过模拟肌肉相连。模拟肌肉具有弹性,能够产生收缩力。将肌肉力作用在弹性皮肤网格上,可以产生各种表情。从1993年到1995年,Lee等进一步改进了基于物理的肌肉模型删。在原来基于物理的肌肉模型的基础上,增加了皮肤层和颅骨层,将一般
21、人脸模型按照激光扫描数据进行变形,并增加了脖子、眼睛、眼睑、牙齿等辅助器官。综合考虑了组织弹性力、2第1章绪论线性肌肉力、分段线性肌肉力、体积保持力、颅骨约束力等多种力以及节点的质量、位置、速度、加速度之间的关系,用迭代的方法求解方程。1988年,MagnenatThalmann等提出的抽象肌肉动作模型就是一种伪肌肉模型口1(与肌肉模型不同,伪肌肉模型不去精确模拟人脸的解剖细节而是通过少量控制参数来模拟人脸的基本肌肉动作)。抽象肌肉动作模型可以在底层抽象肌肉动作级、也可以在高层表情级设置参数产生脸部动作,表情是通过成组抽象肌肉动作来实现的。1992年,Kalra等提出的有理自由变形方法也是一种
22、伪肌肉模型哺1。1999年,Noh等提出的径向基函数变形方法是一种新的伪肌肉模型阳1。Noh等将脸部变形的最小单元称为几何变形单元(6DE),每个GDE包括一个控制点、控制点周围的影响区域、影响区域边缘上的定位点和径向基函数。1990年,Will Jams首先提出了表演驱动的人脸动画技术n训。首先通过三维激光扫描构造出带有纹理图的三维入脸模型,接着在表演者脸部贴上若干特殊反光标志,拍摄并自动跟踪表演者的脸部运动,驱动人脸模型产生高度真实感人脸动画。1998年,Guenter等进一步改进了Williams提出的的表演驱动的人脸动画技术。2001年,Breton等提出参数化模型与肌肉模型相结合的混
23、合方法n。III2基于样本的人脸动画研究者们已经开始把基于大语料库语音合成的思想借鉴到人脸合成的研究中来:首先制作一个合适的图像数据库,合成时按照一定的规则挑选出最好的单元,然后对这些单元进行图像处理,最后连接这些单元形成人脸动画视频,这就是基于图像人脸合成的基本思想。目前国外已经有研究者付诸行动,用基于图像库的方法进行人脸合成。在该领域最活跃的研究者之一是EricCosatto。他们用基于图像数据库的方法n引开发了一个人脸合成系统。首先,他们建立了一个图像样本库, Eric把脸部分成了几个关键部分,另外,他还单独准备了一些称为“基本脸“的完整的人脸图像。这些图像基本上处于中性表情状态。在合成
24、阶段,只要将选出的各个人脸部分的图像通过图像处理的方法“回贴”到这些基本脸上就形成了完整的人脸。然后,他开始对图像库中的样本进行标注。这里的样本实际上是从完整的人脸图像中分离出来的局部图像,主要是嘴巴部分。在合成阶段,从TTS引擎中获取语音信息,应用一定的单元挑选规则选出最好的若干候选单元,再用Viterbi搜索算法得到最佳合成路径。在进行最终的人脸动画显示之前,把合成路径上的各个嘴巴部分的位图通过图像融合技术投影到基本脸上去,形成完整的人脸,最后和语音同步进行人脸的驱动。3第1章绪论Matthew Brand提出的语音木偶方法31合并了声音、人脸及3种不同人的面部表情到一个真实感很强的语音系
25、统中。语音木偶将三种不同人的声音、人脸以及脸部习惯结合到一个真实感语音动画中。给定一个新的音频输入,系统将以训练者的风格准确的产生唇形和脸部动作,甚至可以恢复诸如发音的连贯性等微妙效果(subtle effect)细节影响。这是一个完全数据驱动语音动画系统,它具有两个方面的革新:1)利用最小化熵算法从训练录像中学习,极大的压缩和精确了脸部动作行为多样性的概率模型。熵最小化算法从训练录像中学习脸部行为流形的极为紧凑和精确的概率模型。2)一个闭形式的解决方案对于在这个多变的人脸上的最短连线,产生脸部动作序列,该序列是最优的兼容新语音输入和学习到的脸部行为。在此流形上对于测地线的closedform
26、解决方案生成最符合新语音和学习到的脸部行为的脸部运动序列。对于基于图像的方法而言,虽然思想简单,但是却存在很多具体的困难。基于图像的方法其中至少包含了计算机视觉技术,语音识别技术,人脸检测和定位技术等多项研究领域。首先,建立一个性能优良的图像库存在较大难度。另外,在用基于图像的方法进行人脸合成阶段,一般都会用到图像变形方法,这种方法的计算量大,并且经常需要手工的调整。再有就是人脸检测和定位技术还不完善。1113基于单幅图像变形的人脸动画在人脸动画中,还可以利用单幅图像变形技术(指的是对给定的一幅图像进行几何位置上的变换)对人脸进行变形而产生各样的说话者口型以及丰富的表情。而建立在图像变形基础之
27、上的图像渐变指的是给定两幅图像(源图像和目标图像),产生一系列的中间图像以实现源图像到目标图像的平滑过渡,图像渐变不仅要求过渡的平滑性,还要求中间图像本身的可视性,这就要求图像变形技术与图像融合技术的结合。在图像变形中,空间映射是核心,据此可将图像变形技术大致分为三类:第一类基于块的变形,典型的算法有二次网状变形算法和基于三角剖分的变形算法m5671。他们的共同思想是将整幅图像分成若干块,从而将整幅图像的变形用每-d,块的变形的结合来实现。这类算法的显著优点是变形速度块,但是将图像分成小块这一预处理工作比较繁琐,而分块的合理有效性直接影响了最终的变形效果。第二类基于线的变形n引,这种算法的思想
28、是在图像上构造一系列的特征线,图像上每个像素的偏移量由该像素与这些特征线的距离的综合来决定。这种方法仍然存在变形速度较慢的问题,且不太直观。第三类基于点的变形,典型的算法是基于径向基函数的变形算法n钌汹1。这种算法的主要思想是将图像看成是众多散乱的点构成,通过指定一些特殊点的空间映射关系和某种合适的径向基函数来完成图像上所有点的空间映射。这种算法比较直观,但是由于径向基函数一般为高4第1章绪论斯函数等较为复杂的函数,故变形速度很慢,此外,这种算法难以保证变形图像的稳定边界。12人脸特征点定位研究背景人脸特征定位是通过计算机在一幅人脸图像中自动地定位出人脸各个器官的准确位置,其中包括眼睛、鼻子、
29、嘴巴、下巴、耳朵以及人脸外轮廓等所有需要提取特征点的位置。它为人脸图像的处理与分析提供了重要的几何信息。该方向的研究在人脸识别、基于模型的图像编码、具有真实感的三维虚拟人脸建模、人脸变形、人脸表情分析及合成、口形分析等方面有着重要的应用。人脸特征定位的研究始于基于几何特征的人脸识别方法的研究。早在上世纪六十年代末,Kanada雎11就提出了基于几何特征的人脸识别方法。其中采用的方法就是基于灰度变化信息来定位面部特征点的方法。该方法主要利用人脸不同区域灰度分布的不同特性来提取特征点的位置。该方法有与直接利用灰度的变化来分析,因而对于光照的变化,其鲁棒性受到限制。Kass晗21等人在1987年首先
30、提出了称为Snake的主动轮廓线模型(Actire Contour Model),Snake是能量极小化的一种模型,内力约束它的形状,外力引导它的行为,图像力将其拖向显著的图像特征。Snake模型的引人之处在于它对范围广泛的一系列视觉问题给出了统一的解决方法。近年来,它已经被越来越多的研究者成功地应用于计算机视觉的诸多领域。Won-Sook Lee陉31等1997年提出了一种由正面和侧面人脸图像的结构化snake模型来进行人脸面部特征定位。基于可变形模板的特征提取首先是由ALYuille幢们等人在1992年提出,用来提取眼睛和嘴巴的特征位置。针对人脸器官的复杂性,有些区域的灰度对比度比较低,因
31、而无法直接检测到边缘,即使获得了较明显的边缘,也很难从中自动地获取精度很高的特征点位置。为此,用弹性可变形模板进行特征提取就显示其优越性,可变形模板用一组根据特征形状的先验知识设计的参数所定义,这些参数是可调的,为了定义出最符合特征形状的参数,需要利用图像的边缘、峰值、谷值和先验知识设计合适的能量函数。参数向能量函数减小的方向做调整,当能量函数达到最小时,这组参数对应的模板就最符合所关心的特征形状。Paul Debevec啪1等于1992年提出了利用神经网络对人脸照片中的眼睛、鼻子和嘴巴进行定位的方法。在该方法中,对每一个器官都构造一个神经网络,以人脸图像为网络的输入,得到该器官在图像中的位置
32、。LWiskot乜力等人在1997年提出了利用Gabo:小波变换系数进行人脸识别的弹性图匹配方法,在该方法中利用了一组不同频率和相位下得到的的Gabor小波变换系数作为特征,来进行面部特征点的精细定位,进而进行识别。VKr4uger岬1利用Gabo小波进行人脸图像的表示与重建。根据重建系数的相似性来进行人脸5第1章绪论特征定位。另一种人脸特征定位的方法是基于主动形状模型和主动表观模型的方法。主动形状模型(ASM)是一种基于统计模型的方法,是由TFCootes删等人在1995年提出,该方法对训练集中大量所描述的形状实例进行统计,建立起反映目标形状变化规律的形状统计模型和反映灰度分布规律的局部灰度
33、模型在搜索过程中,首先利用训练得到的局部灰度模型进行搜索,之后利用形状模型来对搜索到的形状进行近似表达,同时对其合理性进行判断,对不合理的形状进行调整以保证形状在统计意义上的合理性。通过循环迭代,得到理想的匹配结果。在主动形状模型基础之上,TFCootes口233儿圳等人在1998年中提出了主动表观模型(AAM)。在此方法中,不仅建立了反映形状变化的形状统计模型,同时建立了反映全局纹理变化的全局纹理模型,以充分利用全局的纹理信息。并对形状模型及纹理模型结合起来建立表观模型。得到的表观模型去除了形状和纹理之间的相关性,可以准确地生成形状及纹理变化的目标图像。在AAM搜索过程中,利用训练得到的图像
34、灰度插值与表观参数变化的线性关系,不断变化表观模型参数以及二维几何位置和尺度等参数,直至得到理想的匹配效果。ASM和AAM方法可以通过对某一类特定图像进行建模,来进行特征的提取,具有较好的通用性与灵活性。13图像拼接融合研究背景图像拼接技术就是将数张有重叠部分的图像(可能是不同时间、不同视角或者不同传感器获得的)拼成一幅无缝高分辨率图像的技术。图像拼接技术在摄影测量学、计算机视觉图像处理和计算机图形学等领域中都有大量的研究和应用。在摄影测量学中,图像拼接用于建立大型、高分辨率的图像。在计算机视觉领域中,图像拼接应用在可视景物表示研究中,用来恢复深度或视差信息。在计算机图形学中,基于图像拼接技术
35、,可以由一组实际图像迅速绘制出具有照片真实感的新视图。图像配准和图像融合是图像拼接两个关键技术。图像配准是图像融合的基础,早期的图像配准技术主要采用点匹配法,这类方法速度慢、精度低,而且常常需要人工选取初始匹配点,无法适应大数据量图像的融合。近几年来,许多图像自动拼接技术被提出并实现。1992年,剑桥大学的Brown概述了图像配准技术的基本理论以及主要方法【351。2003年,Zitova等人综述了随后十年的图像配准技术的基本理论以及主要方法【361。2004年,国内关于图像拼接技术的综述性文献【37】把图像拼接技术分为基于自适应流形和基于人工确定流形两类进行论述。614研究内容第1章绪论基于
36、单幅图像的人脸动画有较高的真实感,但由于图像变形算法是基于像素的运算,计算量通常会比较大,所以实现动画的实时性一直是比较困难,通常需要在动画的真实感和计算量之间做出比较好的折中。在本文实现的系统中,精简了MPEG-4人脸动画标准,使之能适用于基于单幅图像的人脸动画。研究了基于单幅图像的人脸动画中能使用的各种图像变形算法,使用改进后的Mesh-Warping算来做图像变形,以减少计算量。应用肤色模型定位口腔和眼球的特征点,使用图像拼接融合的方法来将口腔眼球的样本图像融合到人脸图像中。本文重点探讨并完成了以下工作:1)改进了Mesh-Warpi ng变形算法。根据人脸器官运动的特殊性,在构造变形样
37、条时,提出了整体样条和局部样条结合,横向样条和纵向样条分离的方法。并将样条插值的变形技术推广到极坐标下,用来变形口腔眼球这样的特殊人脸器官。2)单张人脸图像在变形中会缺失口腔细节。应用肤色模型定位口腔和眼球的特征点,使用图像拼接融合的方法来将口腔眼球的样本图像融合到人脸图像中,增加口腔中的舌头、牙齿等细节,保持眼球在眨眼时不变形,同时可以实现眼球运动效果。3)实现了一个基于单幅图像人脸动画系统。该系统具有较好的实时性和真实感。可以自动或手动定位人脸特征点。结合了SAPI 50语音识别引擎进行音素识别,并驱动人脸语音动画同步显示。可调整人脸动画的表情。实现了眨眼、摇头等动作,以增加人脸语音动画的
38、真实感15论文组织全文共分七章,章节安排如下:第一章,介绍人脸动画的基本概念和应用背景。本文相关的人脸动画、特征点定位、图像拼接等技术背景的介绍和研究现状。最后给出了本文的研究内容和组织结构。第二章,MPEG一4的人脸动画标准。这是本文实现的基于单张人脸图像的人脸动画系统的设计基础。 第三章,介绍并研究了在基于单张人脸图像的人脸动画中可能用到的图像变形技术。并比较了他们的优缺点。第四章,介绍并研究了几种常用的人脸特征点定位技术。并比较了他们的优缺点。第五章,介绍并研究了几种常用的图像拼接融合技术。并比较了他们的优缺点。7第1章绪论第六章,实现了一个基于单张人脸图像的实时人脸动画系统。分模块介绍
39、了该系统的设计和实现算法。给出了流程图和实验结果。第七章,对本文所做工作进行了总结,并指出了今后的研究方向。8第2章MPEG-4人脸动画标准第2章MPEG4人脸动画标准MPEG一4是世界上第一个基于对象(objectbased)的多媒体压缩标准38、39、40、41、42,该标准可以对各种自然的或合成的音频可视对象(audiovisual objects,AVO)分别独立编码,将它们有机地集成在同一个场景中。考虑到人脸动画的重要性,MPEG一4定义了专门的人脸动画工具。MPEG-4首先定义了中性状态人脸模型(a face model in its neutral state),在中性状态人脸模
40、型上定义了若干特征点(feature point)作为参考点,还定义了人脸动画参数(facial animation parameters,FAP)集合。每一个人脸动画参数对应着一个特定的脸部动作,连续不断地根据给定的FAP值变形人脸模型,就可以产生人脸动画。FAP值表示该FAP对应的脸部动作的幅度(magnitude),例如,可以用不同的FAP值表示是大笑还是微笑。为了可以在任意的脸部模型上都可以产生相同的动画效果,MPEG-4定义了人脸动画参数单位(FAPU)。21中性状态人脸模型Z图21中性状态人脸模型图21所示的是一个中性人脸。中性人脸的定义如下:11 目光注视着Z轴方向:21 所有脸
41、部肌肉处于放松状态;31 眼睑与虹膜相切;41 瞳孔直径为虹膜直径的三分之一;5) 上下嘴唇接触,唇线处于水平状态并且与两边嘴角处于同一高度;6) 嘴巴关闭,上下牙齿接触:7) 舌头平直,处于水平状态,并且舌尖接触上下牙齿的交界处。922人脸定义参数MPEG一4中定义了人脸定义参数(FDP)的结构,内容包括人脸定义表(faceDefTables)或者已有模型的特征点坐标(featurePointsCoord),纹理坐标(textureCoords)以及纹理映射的投影方式(useOrthoTexture):是柱面投影,还是正交投影。如图22所示,FDP包含84个特征点,这些特征点的主要作用是为定
42、义人脸动画参数提供空间参考。有一些特征点(如111、112、113等)并不会受到人脸动画参数的影响,但是它们在校准私有人脸模型(proprietary face model)的时候需要用到)。这84个特征点被分为若干组(如脸颊、眼睛、嘴巴等),所有符合MPEG一4的人脸模型都应当了解这些特征点的位置。103 10Right eyeFeature points 8ffected by FAPsOther feature points3 9LefteyeNose第2章MPEG-4人脸动画标准图22特征点23人脸动画参数与静态的FDP参数相对应的是动态的FAP参数(Facial AnimationP
43、arameter),而FAP是一个完整的脸部基本运动的集合,与脸部肌肉运动密切相关。如表21所示,在MPEG一4中,FAP参数分成10组,包括口形和表情、下巴、眼部、眉毛、脸颊、舌、头部转动、嘴唇、鼻子、耳朵等共68项。其中第一组是可视音素(viseme)和表情参数两个高层参数,与其它稍有不同。表21 FAP分组组 FAP数 组 FAP数I:可视音素和表情 2 6:舌头 52:颚、下巴、嘴唇内侧、嘴 16 7:头部旋转 3角3:眼球、瞳孔、眼睑 12 8:嘴唇外侧 104:眉毛 8 9:鼻子 45:脸颊 4 10:耳朵 4如表22所示,每一个人脸动画参数的定义包括对应的人脸动画参数单位、所在组
44、号、正向运动的方向以及特征点是单向运动(如FAP3 openjaw)还是双向运动(如FAP48 headpitch)。人脸动画参数也可以用于定义脸部动作编码系统中的动作单元。人脸动画参数既可以用来表示人类的自然的脸部动作,也可以用来表示卡通角色的夸张的脸部动作。表22 FAP定义、单位,方向,分组和步长撑 FAP name FAP description Units Uni Pos G FDP QuantOr motion r subgrp num stepBidir P SIZel Viseme Set of values determining the Na Na na l Na 1mix
45、ture oftwo visemes for thisflame(egpbm,fv,th)2 Expression A set of values determining the Na Na na 1 Na lmixture oftwo facial expression3 Open_jaw Vertical jaw displacement(does MNS U down 2 l 4not affect mouth opening)可视音素是与音素(phoneme)相对应的视频参数,它代表了一定发音的嘴部形状。MPEG-4标准中例举了1 4种对应不同音素的口形。表23给出了14个可视音素。第
46、2章MPEG一4人脸动画标准表2 3可视音素及相关音素可视音囊号 I音亲 1例子0 l None 1 Na1 4口b, I put_bed,mill2 lIf,v lfarXoi cef 3 T,D think,that睦甚型睦等F瓜1rr医磊而i五7 f s,z Si r,!ealI 8 I nI l如t,旦ot9 _|r Red110 A: Car111 Il E JI Bed11 2 lI lI Tipll 3 q l【Top114 I U Book可以利用一系列连续的静态口形参数,重绘出一个视频序列。另一个高层FAP参数是表情参数,每一个表情参数就对应了一组表情控制点的移动。图23描述
47、了人脸的六种表情。表2 4则给出了六种表情的文字描述。图2 3六种常用脸部表情一胃冒一日,亨曹可一。可可_第2章MPEG-4人脸动画标准表24六种常用脸部表情的文字描述表情号 表情名称 文字描述l 喜悦(joy) 眉毛放松,嘴巴张开,嘴角向耳朵方向拉2 悲伤(sadness) 眉毛内侧向上弯,眼睛微闭,嘴巴放松3 愤怒(anger) 眉毛内侧向下拉并向内靠拢,眼睛大开,嘴唇紧闭或微微张开并露出牙齿4 恐惧(fear) 眉毛抬高并向内靠拢,眉毛内侧向上弯,眼睛紧张并警觉5 厌恶(disgust) 眉毛和眼睑放松,上嘴唇通常不对称地抬高并卷曲6 惊讶(surprise) 眉毛抬高,上眼睑大开,下眼
48、睑放松,张开下颚24人脸动画参数单位为了能够在任意人脸模型上定义人脸动画参数,MPEG-4定义了人脸动画参数单位(facial animation parameter units,FAPU)。FAPU被定义为关键脸部特征之间距离的分数(fraction),这些关键脸部特征之间距离(如两眼之间的距离)是在中性状态人脸模型上定义的。FAPU使得人脸动画参数在任意人脸模型上具有一致的解释,能够在任意人脸模型上产生合理的表情与口型。为MPEG一4定义的人脸动画参数单位。表25给出了人脸动画参数的具体定义。表25人脸动画参数单位IRISDO 虹膜直径 IRISD=IRISDO1024ESO 两眼之间距离
49、 ES=ESO1 024ENSO 眼睛与鼻子之间距离 ENS=ENSO1024MNSO 嘴巴与鼻子之间距离 MNS=MNSO1024MW0 嘴巴宽度 MW=fW01 024AU 角度单位 lOE-5弧度25本章小结本章讨论了MPEG-4的人脸动画标准。MPEG一4的人脸动画标准提供了一个较为全面的人脸模型。但MPEG-4关于人脸动画只是定义了一个标准格式,并没有给出具体问题的解决方案。因为本文系统是基于单张图像的人脸动画,MPEG一4人脸动画标准中许多3D部分的定义就可以精简掉。本文实现的基于单张人脸图像的人脸动画系统根据需要精简了MPEG-4的人脸动画标准,减少了人脸特征点的个数,根据SAPl5识别的音素建立了可视音素和音素对应表,建立了一个较为简洁高效的人脸模型。13第3章人脸动画的中的变形技术第3章人脸动画的中的变形技术在基于单张图片的语音动画中,图像变形技术是其核心。研究发现,已经应用于入脸图像变形领域并且效果较好的技术分为两大类:1)基于散乱点插值的