1、11 前言 12 研究现状 12.1 概述 .12.2 情感分类与情感化智能计算 .22.3 语音情感的特征提取 .22.4 语音情感识别的方法与手段 .32.5 语音情感识别的工作流程和语音库的获取 .43.总结与研究展望 43.1 情感分类与情感识别 .43.2 非线性计算方法与语音情感的识别 .43.3 语音情感的分级识别 .53.4 组合多模式情感识别 .53.5 语音库的选取 .51 前言 随着信息技术的高速发展和人类对计算机的依赖性不断增强,人机交互(Human-Computer Interaction)能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的环境和气氛
2、以及对象的态度、情感的内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。显然,人的大脑所表现出来的心智现象不仅仅体现在“智”的方面,而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上,而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。 顾名思义,语音情感识别包括语音识别和情感识别两大领域,而情感识别中又包括诸如心理学、生理学等多个学科,所以如果要想使计算机准确的在语音中提取出说话人所表达的感情,就必须要
3、从多方面知识领域着手。目前有许多关于语音和情感之间相互联系的研究,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别技术的用途非常广泛,可以用来设计人性化的语音人机界面;可以用于互动影视;可以用于辅助语音识别;可以用于情感翻译;还可以用在测谎、电子游戏和辅助心理治疗等方面。 2 研究现状 2.1 概述 1967 年,诺贝尔奖得主 Simon H A.在认知基础领域强调1:“思想和解决问题的基础理论都不能忽视情感对他们的影响。 ”情感的传达和描述对于信息的理解和交互是非常重要的。在日常生活中,人们可通过人的面部表情、声音、手势、体态、心跳、步态、体温、呼吸
4、、血压和心肌电流图等来交流情感,其中,人的声音起着非常重要的作用。 人的情感是可以通过语音信号反应出来的。从语音中提取情感的基本思路就是找出能反映情感的声学参数,分析其与情感之间的关系。传统的语音处理系统仅仅着眼于语音词汇传达的准确性,而完全忽略了包含在语音信号中的情感因素,所以它只能反映信息的某个方面。情感的识别和表达对于语言信息的交流和理解是非常必要的,也是人们最大的心理需要之一。而作为认知情感研究的第一步,就是要识别各种情感的2表现形式,然后才能有效地在实际中利用情感因素,并进而对心智活动的其他方面进行深入研究。 2.2 情感分类与情感化智能计算 情感的分类是一个有趣而复杂的问题,己有许
5、多学者对这个问题展开讨论2。学术界提出的关于情感的定义大概就有 100 多种。为了让计算机能够更好地完成情感识别任务,必须对人类的情感状态有一种合理而清晰的分类。早在 1962 年,Tomkins 曾提出人类的基本感情有 8 种,分别是愤怒、害怕、苦恼、厌恶、欢乐、惊奇、关爱和羞愧。1980 年,Plutchik 提出了与之不同的另外 8 种基本情感2:害怕、愤怒、哀伤、欢乐、厌恶、惊奇、容忍和期待。在 1988 年的时候,Ortony,Clore 和 Collins 对之前所提出的基本情感分类进行了一个汇总3,其中最常见的四种基本情感是害怕、愤怒、悲伤和欢乐,其次常见的四种情感是厌恶和惊奇。
6、除去这六种情感之后,其余的情感分类就比较分散,不同的研究者所提出来的基本情感分别有 220 种不等。除了定义基本情感外,也有通过定义情感的 n 维取值来描述不同的情感,比如常见的二维取值,是程度(平静/兴奋)和取向(负的/正的) 。Lang 认为,根据 n 维取值方法进行分类比根据离散的分类更可信4。另外,情感在感觉上可能是“模糊的”,即一个元素可以同时属于一个以上的类5。当人们处于相互交织的情感之中时,是很难将其归入某种特定的情感状态的,很明显,情感状态越纯、越单一的情感,计算机进行分析和识别的效果就会越好。任何表示法都有自己的适用性和局限性,在语音情感识别中,采用哪种情感分类方法取决于具体
7、问题,不能一概而论。 情感计算的目标是使计算机拥有人类的情感。如果计算机能够有效的对情感做出判断,就必须拥有与规则系统相一致的情感或类似的情感机制。对于语音情感的识别也是一样,只有更好的考虑情感因素,才能更好地实现各种情感的分析与计算,因此现在越来越多的研究工作者致力于情感的智能计算方面的研究。在传统的刺激-反映学习理论中,通常不考虑情感对适应性的参与利用。但 Mower 发现6,学习不仅仅只有刺激-反映的发展过程,而且还应该有一个牵涉到情感发生的过程。他所提出的双过程模型理论指出,在情感状态中可以更灵活地学习,并提供新的学习方法动机来源。MIT 媒体实验室的 B.Blumberg 对仿真狗的
8、研究首先将情感因素引入到学习之中,并且近年来正致力于对于情感机器人的研究。基于情感智能计算的另一个方面就是关于情感化决策的研究,也就是让计算机可以自动的对某些特定的事物做出灵活而明智的决定。1994 年,A.Araujo 提出了一种将低层生理情感反映与其所影响的认知相结合的模型7。该模型通过激励和倾向性的量化来描述情感。该模型由“情感网络” 和“认知网络” 两个相互作用的网络构成,分别用来模仿人脑中的边缘结构和皮层结构,该模型在情感与记忆的结合研究方面迈出了具有重大意义的一步。 2.3 语音情感的特征提取 一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语
9、音特征参数的变化。统计分析表明,高兴时,通常是语速较快,音量较大;悲伤时,通常是语速缓慢,音量较小。基音是最常用的判定情感的语音特征,它反映了超音段的信息。在语音情感识别中使用的特征参数有基频(Pitch) ,其次才是能量(Energy) 、语速(Speech Rate) 、共振峰频率(Formant ) 、单个音节的持续时间(Duration) 、音节之间的停顿时间(Pause) 、线性预测系数(LPC ) 、Mel 倒谱系数(MFCC )等,以及它们的各种变化形式,如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同
10、的个体上显现出较强的相异性。Dellaerat等人主要使用了基音轮廓线,来区分悲伤、生气、高兴和害怕,识别率能达到 60-65%。Seppanen 等人在利用韵律学对芬兰语进行语音情感识别时,提出了共 43 种情感参数,其中基音部分包括基音均值、中值、最大值、最小值、基音范围等参数,对于单个确定人的情感识别取得了 80.7%的识别率。Petrushin 采用了基音、一次共振峰和二次共振峰、能量、说话速率等参数对五种情感识别取得了很好的效果,平均识别3率达到 70%。McGilloway 等人研究了高兴、生气、悲伤、害怕和正常这五种情感状态的分类,从能量、基音的运动轨迹中抽取了 32 个潜在的特
11、征,得到了 55%的识别率。以下比较详细地分析一下常用的特征。 下表中总结了有声情感与五种基本情感之间最普遍的联系8。 类型 害怕 愤怒 悲哀 高兴 厌恶说话速度 很快 有点快 有点慢 较快或较慢 非常慢平均音调 非常高 非常高 有点低 很高 非常低音调范围 很广 很广 有点窄 很广 有点广强度 普通 较高 较低 较高 较低声音质量 不规则的表达 带呼吸声的胸腔音调 引起共鸣的 带呼吸声的尖叫 抱怨地胸腔音调变化程度 普通的 突然的强调音节 向下变形 平滑的向下变形 广阔向下的终端变形清晰度 精确的 拉紧的 含糊的 普通的 普通的表 1 人类声音特征与情感之间的一般联系 2.4 语音情感识别的
12、方法与手段 各种模式识别方法,如线性判别分类(Linear Discriminant Classifier),K 最近邻法(K-Nearest Neighborhood)、支持向量机(Support Vector Machine)、高斯混合模型(Gaussian Mixtures)、隐马尔可夫模型(Hidden Markov Model)等,都被应用于语音的情感识别。许多学者针对这些情感语音的特征,比较了不同的分类方法能够达到的不同效果。在这些分类方法中,人工神经网络和隐马尔可夫模型的性能比较出色。 在模式识别方面,各国研究人员在语音情感信息处理领域几乎利用了所有的模式识别手段,新的方法的应用
13、和对比层出不穷。Chul Min Lee 等把语音情感识别归结为模式识别问题,并提出了三种方法 9:线性判别分类(LDC),K 最近邻法(k-NN), 支持向量机(SVC ) 。LDC 是带有高斯概率分布的参数方法,估算完参数的均值和方差后,LDC 利用贝叶斯准则计算出最大后验概率对情感进行分类。K-NN 方法通过计算 k领域的平均均值估算每类情感的局部后验概率。在 SVC 方法中,用非线性的映射方法将输入向量映射到更高维的特征空间中进行计算。Tin Lay New 等采用了 Mel 频率语音能量系数和 HMM 分类方法10 ,将语音信号分成 16ms 一帧的互相重叠的窗口,每一段语音帧都用
14、12Mel 频率下边带能量评价准则来进行参数化,对参数化后的再用矢量量化器进行编码。在系统的训练阶段,按照分类情感训练生成的码本,训练产生 4 状态各态历经 HMM。在识别阶段,把没有经过事先分类的语音进行特征编码,之后用已经训练好的 HMM 进行识别,识别后的输出有五类,第一类输出是愤怒,第二类为伤心,愤怒与惊讶被作为一个输出分到了第三类,第四类为恐惧和高兴,第五类为厌恶和悲伤。Tin 共做了三次实验,第一次只对第一组和第二组进行识别,其平均识别准确率达到了 95%;第二次实验,对第三类和第五类进行了识别,其平均识别率达到了 87.5%,第三次实验,对第三、第四、第五类进行识别,其平均识别率
15、达到了 82.22%。Tin从一个新的角度提出了语音情感识别的方法。 在基于神经网络的分类方法方面,Nicholson 所研究的系统的整个神经网络由 8 个子网构成,其处理流程分两部分:语音处理(包括特征计算、句点提取和特征提取)情感识别(包括神经网络训练和识别情感)。其每个子网处理一种特定的情感。测试发现11,负面的情感,如愤怒和悲伤容易识别,但正面的情感(比如喜悦)不易识别。H. Sato 等也采用神经网络,但是只能把平静时的情感和其他 3 种情感区分开来,还不能具体识别每一种情感12。McGilloway 等人利用几位不同乘客的抽取语音作为研究对象,情感同样是高兴、生气、悲伤、害怕和正常
16、状态,从强度、基音的运动轨迹中抽取了 32 个潜在的特征,使用了两个不同的分类器,其中的神经网络分类器采用 90作训练,10作测试,得到了 55的识别率13。 赵力等人14提出了一种利用全局和时序结构的组合特征以及 MMD 进行情感特征识别的方法,对 10 名话者采集了带有欢乐、愤怒、惊奇和悲伤的 1000 句话进行识别,并取得了 94%的平均情感识别率。 42.5 语音情感识别的工作流程和语音库的获取 一般地,语音情感识别的工作流程大致可以分为以下几个步骤:1.对语音信号根据需要进行接收和预处理;2.对预处理后的语音信号进行特征提取和分类;3.根据情感的发生和表达等知识预见话音中所隐含的潜在
17、的感情;4.让计算机通过学习,认识各个情感的重要特征,积累情感识别的经验;5.纠正情感识别中的偏差,加强计算机对不确定性情感的识别能力;6.输出计算机最终的识别结果。 如果让计算机能有效的对情感进行识别,那么就必须对情感信息进行有效的选取。情感信息的主要表达方式有内在型和外在型两种,而声音属于外在型情感信息范畴。语音数据的采集一般是请专业的演员在特定的环境下按照要求朗读事先给定的句子或词组,使之听起来带有特定的情感色彩,此时通常要求以 16khz速率采样,一般存储为.wav 格式,语音库的大小由几百到几千句不等。这些数据还需要通过听取试验进行验证,验证方法是由参与语音情感录取之外的几个人,在不
18、参看文本的情况下对听到的随机播放的话音中所包含的情感进行判断,根据每个人判断的结果,对于那些含有感情歧义的话音进行修改或者删除,留下感情特征明显的语句用来让计算机进行情感的分析与识别。由于大多数情感语音都是先由演员来模拟产生的,因此毫无疑问存在着一个问题,这就是演员模拟的情感语音是否真正反映了普通人会将本是情感的状态进行激励的掩饰,而有些人会将本不是某种情感的状态进行扩张,极力装出所指定的情感状态。因此,由演员来录制模拟情感语音,有可能错误地表达了语音中情感的特点。 3.总结与研究展望 许多学者已经把语音情感识别和人脸表情识别结合起来研究,并取得了比较理想的效果。另外,语音中情感的识别和合成带
19、有情感的语音是相辅相成的。合成情感语音最重要的韵律参数包括振幅和基音频率,通过修改平静时语音的发音持续时间,基音和振幅来产生带有情感的语音。对这些特征的分析,不仅有助于语音情感识别,还有助于情感语音合成。这些方面的研究将有助于人工智能向更人性化方向发展。尽管语音情感信息处理已经在很多方面取得了一系列的进展,但是面对真正的人机交互,还有许多的问题值得研究。 3.1 情感分类与情感识别 目前的研究大多数将情感分为 220 种不同的基本情感。有人认为,其他的情感可以有这些基本情感派生出来,那么到底基本情感是哪些,其他的情感怎么由这些基本情感进行派生,仍然是一个有待研究的问题。人的情感复杂多样,也许只
20、有在人们对情感计算和情感模型的领域的了解不断深入之后,才能更可靠的对语音中所含有的情感进行识别。 3.2 非线性计算方法与语音情感的识别 情感是如何与语音相互作用的,每种情感的基本特征是什么,怎样才能得到又少又准确的语音特征,这些都是尚未解决的问题。目前,在提取表征说话人特征时,都是按帧提取的,认为语音信号是短时平稳的,然后再按帧进行特征提取。但是语音信号的特性是随时间而变化的,是一个非平稳过程。如果从整体上把握一段语音,可能对情感的提取与分析更加有利。那么如果把非线性分析方法引入语音情感的识别中,可能会达到很好的效果。1998 年提出来的希尔伯特-黄(Hilbert-Huang)变换现在被越
21、来越多的用来进行语音识别和说话人识别的研究,也许这也将成为语音情感识别的一个新的手段。我们有理由相信,随着非线性理论的不断发展,人们对语音情感的分析与识别的认识也会更深一步。 53.3 语音情感的分级识别 在人们表达的情感中除了有较纯的情感之外,还有交织情感,如悲喜交加等,当人们处于交织情感之中时,很难将其归入某种特定的情感状态。也许可以利用分级识别的方法,如第一级识别,先把情感分为几组,把情感特征比较相似的分为一组;在第二级识别的时候,可以利用语法分析或特定情感中的关键字识别,把分组后的情感进行细分。如果发现最终得到较为满意的识别结果,那么分类结束。 3.4 组合多模式情感识别 人的情感主要
22、体现为内在和外在两种类型。外在型情感信息主要指声音、手势、体势和面部表情等信号,是可以通过外部自然观察到的。而内在的情感信息则不同,主要是指外部观察不到的内部生理反应,如心跳速率、舒张压和收缩压、脉冲、血管扩张、呼吸、皮肤传导色的颜色和温度等等,因此人与人之间情感的交流是多个方面的组合。对情感识别的深入研究必将沿着多模式信息组合的方式进行,在以往进行的单模式研究的基础上,发掘各模式之间的联系,利用信息之间的相互关联来识别情感。已有的研究表明,组合多模式情感识别能大大提高识别的效率。但是如何对这些模式进行组合,如何确定语音模式同其它模式之间的相互关系,都是语音情感识别中需要继续研究的课题。 3.
23、5 语音库的选取 已有的语音情感识别的成果大都建立在一个较小的语音库之上15。由于研究的语音样本大多属于人工材料,有的是采用专业演员朗读制定的语句,有的是从这种媒体中选取具有明显情感倾向的语句。采用这种素材作为试验的样本,使样本的收集工作变得简单,但是同自然人的情感表达毕竟有一定的差异。情感识别的对象一般都是自然人,不能仅仅局限于具有表演天赋的演员或专业的播音员等人。所以将来的研究将努力扩展情感语音库的范畴,由特定人群到普通人群,由特定环境到普通环境。 从语音中提取情感的研究才刚刚起步,许多方法尚处于试验阶段。从上面所论述的方法中可以看出,目前的研究主要集中在从语音韵律中提取情感特征信息,大多数试验都是基于某种特定的语言,而且一般将男声和女声分开研究。人的情感是十分复杂的,所以在这方面还要做大量艰苦细致的工作