1、1融合音频,视频和文字线索从多式联运内容中分析情绪SoujanyaPoria a ErikCambria b NewtonHoward c Guang-BinHuang dAmirHussain aa 英国 Stirling大学计算机科学、数学系。b 新加坡南洋理工大学,计算机工程。c 美国麻省理工学院,媒体实验室。d 新加坡南洋理工大学电气与电子工程学院,文章信息 文章历史:2014 年 10月 31日被接受,2014 年 12月 31号被修订,2015 年 1月 2号被被普遍认可,2015 年 8月 17日可在线获得。关键字多模态融合社会大数据分析意见挖掘多模态情感分析Sentic计算摘要
2、数量庞大的视频每天被公布在社会化媒体平台,如 Facebook和 YouTube。这使得互联网有无限来源的信息,在未来的几十年里,应付这样的信息,挖掘有用的知识将是一个越来越困难的任务,在本文中,我们提出一个新颖的方法对多通道情绪分析,由收获情绪从网络视频演示模型,利用音频、视觉和文本形式作为信息的来源。我们使用这两个特性,将情感决策级融合方法信息提取多个模式与这方面现有的作品通过论文进行了彻底的对比,这证明了我们的方法的新颖性。初步与 YouTube比较数据集实验表明,该多通道系统达到近 80%的精度,优于所有最先进的系统 20%以上。2015 Elsevier B.V 保留所有权利1.介绍
3、主体性和情感分析是自动的识别人类思维(即私有状态。 、观点、情感、情绪、行为和信仰)。此外,主观检测重点是确定数据是否主观目标。其中,情绪分析将数据分为积极的,负面和中性范畴,因此,确定数据的情感极性。到目前为止,大部分的情感分析的工作。进行自然语言处理。可用的数据集和资源局限于文本情感分析、情绪分析。随着社交媒体的出现,人们现在广泛使用社交媒体平台来表达他们的意见。人们越来越多地利用视频(如 YouTube和 Vimeo VideoLectures),图片(如 Flickr,Picasa,Facebook)和音频(如 podcasts)通过空气在社交媒体平台上他们的意见。因此,它是高度对我的
4、意见和至关重要识别情绪的不同形式。到目前为止多通道情感分析领域没有得到太多的关注,和没有工作之前专门解决提取特征提取和融合的信息从不同的形式。在本文中,我们讨论了特征提取过程从不同的方式以及说话方式我们用它们来构建一种新颖的多通道情绪分析2框架。我们用最初开发的 YouTube的数据集1,我们所采用的几种监督机器学习的情感分类为基础的分类。最好的性能已经得到了极端学习机(ELM) ,一种新兴的学习技术为广义进给提供有效的统一解正向网络包括(但不限于)单/多隐层神经网络,径向基函数网络内核学习。ELMs 提供诸如学习速度快等显著优点,易于实施,和最少的人为干预。因此他们提供强大的潜力作为一个可行
5、的替代技术的大规模计算和机器学习的许多不同的应用领域,包括图像,文,和语音处理,以及多模态数据分析。其余的论文安排如下:2 节介绍拟议的工作背后的动机;3 部分包括有关从不同的方式对情绪和情绪识别工作;第 4节介绍了使用的数据集,并提出了一种实验概述;接下来,5,6 和 7解释视觉,音频和文本数据怎么进行处理,分别为 8节说明了采用的方法融合不同的方式;第 9节提出了一个概念证明的实时多模态情感分析头像,10 部分介绍了实验结果;最后,11 部分总结全文,概述未来的工作。2.动机在这一领域的研究迅速吸学术界和工业界的引注意力和一致好评,这种结合的进步信号处理和人工智能的发展导致了高级智能系统,
6、打算检测和处理情感信息包含在多通道的来源。然而,大多数这样的先进的框架依赖于一个处理形态,也就是说,文本、音频或视频。此外,所有这些系统被展览限制在满足鲁棒性、准确性和整体性能需求反过来又极大地限制了这种系统在实际应用中的有效性。多传感器数据融合的目的是提高精度和可靠性的估计。许多应用程序,例如导航工具,已经证明了数据融合的潜力。这描述了开发一个多通道的重要性和可行性框架,可以应对所有三个传感模式:文本,在以人为中心的环境中音频和视频。人类交流和表达自己的情感和情绪的方式可以表示成多通道。同时文本、音频和视觉形式和认知的剥削,使有效提取的语义和情感信息转达了在沟通。随着社会媒体的普及,如脸谱网
7、和 YouTube,很多用户会上传自己的意见论视频格式的产品。恰恰相反,人们想要购买相同的产品,浏览通过在线评论和作出他们的决定。因此,矿业市场更感兴趣意见从视频数据而非文本数据。视频数据可能含有更多的线索来识别情绪的观点持有者有关的产品。音频数据在一个视频表达说话者的语气,视觉数据传达了面部表情,这反过来有助于理解的情感状态的用户。视频数据可以是一个很好的来源情绪分析,可是主要挑战需要克服。例如,表达的意见因人而异。一个人可能更为强烈而其他人表达他或她的意见可以更形象。因此,当一个人表达了他的意见,更多的声音调制,音频数据可能包含了大部分的线索意见挖掘。然而,当一个人通过面部表情来交流,那么
8、大多数的数据需要的意见挖掘,将被发现在面部表情。所以,一个通用的模型需要开发能够适应任何用户本身,它可以提供一个一致的结果。我们的多模态情感分类模型进行训练,强大的数据,和数据包含许多用户的意见。在本文中,我们表明,从不同类型的整体应用特征提取的数据和模式增强了我们提出的性能多通道情绪系统。3. 相关工作情绪分析和情感分析两个代表私人的心态和装备,只有两个著名的最先进的3方法在多通道的情绪分析,在本节中,我们描述的研究到目前为止情绪和情感检测使用视觉和文本形态。特征提取和特征融合的发展是至关重要的一个多通道情绪分析系统。现有研究在多模态情感分析中,可以分为两个大类:一类是用于特征提取的,每个个
9、体都有情态,与那些融合的特征的开发技术来自不同的方式。3.1视频:从面部表情中分析情绪和情感1970,Ekman 等。开展面部广泛研究表达式。他们的研究表明,普遍的面部表情提供足够的线索来检测情绪。他们用愤怒,悲伤、惊奇、恐惧、厌恶和喜悦是六种基本的情感课程。这样的基本情感范畴足以描述面部表情所表达的情感。然而,这个列表不包括面部表情所表达的情感在他或她对某人不尊敬的时候,这样,一个第七种基本情绪,蔑视,介绍了松本、艾克曼等。开发了面部表情编码系统(FACS)编码的面部表情解构表达式为一组动作单元(AU) 。AUs是指通过特定的面部肌肉运动。非盟由三个基本部分:AU,流式细胞仪的名字,和肌肉的
10、基础。例如,AU1,FACS 叫内眉者是说明通过额肌内侧部的肌肉运动。在考虑到情绪,弗里森和艾克曼提出的情绪的面部动作编码系统(efacs) 。EFACS 局定义了套 AU参与建设的面部表达表达特定的情感。主动外观模型和光学流转使用流式细胞仪的技术是常见的方法来理解表达了面部表情。利用来自等功能 k-nearest-neighbors,贝叶斯网络,隐马尔科夫模型(HMM)和人工神经网络(ANN)已经帮助许多研究人员从面部表情推断情绪。然而,所有这些系统使用不同,手工制作的语料库,这使得它不可能执行一个比较评估他们的表现。3.2音频:从语音中识别情感和情绪最近基于语音情感分析的研究重点在于识别几
11、个声学特性,如基本频率(音调) ,话语的强度,带宽和持续时间。扬声器依赖相比与独立扬声器的方法给出更好的结果,优秀的结果如图所示。在 98%的精度是通过使用高斯混合模型(GMM)作为分类器,用韵律,语音质量以及 Mel频率倒谱系数(MFCC)采用作为语音特征。然而,扬声器依赖的方法在许多应用中是不可以处理大量的可能的用户(扬声器) 。表格 1SenticNet样本数据概念 极性大量 +0.258强烈性欲 +0.858少量 +0.032狂热 -0.566自卑 -0.153疑惑 -0.174尴尬 -0.174羞愧 -0.186痛恨 -0.391深恶痛绝 -0.3914据我们所知,独立扬声器应用迄今
12、为止最好的分类精度达到 81%,获得在柏林的情感语音数据库(BDES)使用两步分类方法和一套独特的光谱,韵律,和语音功能,选择与顺序浮动向前选择(SFFS)算法。根据 Scherer等人的分析。从语音音频中识别情感的人的能力是约 60%。他们的研究表明,悲伤和愤怒更容易从讲话中被检测到,而承认的喜悦和恐惧是不太可靠的。Caridakis 等人,获得的 93.30%和 76.67%分别准确识别愤怒和悲伤演讲中,使用 377特性基于强度,音高,Mel 频率 cepstral系数(MFCC),树皮光谱波段,表示特点,暂停长度。3.3文字:从文本数据识别情感和情绪从文本中识别情感内容在自然语言处理中是
13、一个迅速发展的领域,这引起了研究界和产业近几年的关注。情感分析工具有很多应用。例如,帮助企业了解客户对产品的情感,政党明白选民感到党的行动建议。重大的研究已经完成,确定积极的,消极的,或中性情绪有关的话,多词短语,句子,和文献。明确或含蓄地表达从一个一些研究人员已经解决了的文本中,自动识别细粒度的情绪,如愤怒,喜悦,惊讶,恐惧,厌恶和悲伤。到目前为止,基于文本的情感和情绪检测主要依靠以规则为基础的技术方法,包话建模使用一个大的情绪或情感词汇,或统计方法假定可用性的大数据集的注释极性或情感标签。几个监督和无监督分类已建成,来识别文本中的情感内容。SNoW 是基于文本的情感检测的最有用的框架之一。
14、在过去的十年中,研究人员已经将重点放在不同类型的文本,如新闻,博客,推特消息,客户评论。情绪提取从社交媒体有助于预测发布一个产品的普及,结果选举民意调查等,要做到这一点,几个知识情绪和情感词汇已开发的单词和短语级情感分析。3.4多模态融合研究进行多模态融合的能力是成功实施代理,用户跨行的一个重要前提。多模式融合的主要障碍之一是发展和规范的一种方法去整合不同的时间尺度和测量值的不同来源的认知和情感信息。主要有两个融合策略:特征级融合和决策层融合。特征级融合相结合的特征提取从每个输入通道中的一个“联合向量”之前进行任何分类操作。这种方法存在着一些差异,例如,Mansoorizadeh 等人,建议的
15、异步特征级融合。在特征级的模态融合提出了高度不同的输入功能的整合问题,这表明,同步多个输入的问题,而重新教学的方式的分类系统是一个平凡的任务。在决策级融合中,每个模态都是独立建模和分类的。单峰结果是结合结束时通过选择合适的度量过程,如专家规则和简单的运营商,包括多数票,款项,产品和统计加权。许多研究有利于决策级融合的数据融合的首选方法,因为从不同的分类错误往往是不相关的,该方法是独立的。在许多情况下双峰融合方法已经被提出,但最优信息融合结构仍然是难以捉摸的。Cambria等人提出了一种新的方法称为 Sentic混合保险丝的方式,以把握的多式联运内容有关的情绪。与其他方法不同的是,他们将面部表情
16、与自然语言文本融合,并随时间变化的情绪变化。他们用 FGNET和 MMI数据集的实验。Paleari等人进行了两个决策和特征级融合。他们 eNTERFACE的数据实验并表明,决策级融合优于特征级融合。许多多模态方法有 Ad Hoc变通为多模态信息5融合的目的,但整个系统必须培训新模式可以包含之前。此外,他们不适应输入的质量变化。因此,为了更好地适应数据趋势,最好不进行长期调整。4. 数据集4.1 YouTube数据集这是唯一可用的数据集开发的。407 个视频是从社会媒体网站 YouTube收集。在数据集的视频是关于不同的主题(例如政治,电子产品评论等。视频被发现使用以下关键字:意见,评论,产品
17、评论,最好的香水,牙膏,战争,工作,商业,化妆品评论,相机审查,婴儿产品的审查,我讨厌,我喜欢。最终的视频设置有 20名女性和 27名男性扬声器随机选自 YouTube,年龄介乎约 14至 60年。虽然他们属于不同的种族背景(例如,白人,非洲裔,拉美裔,亚裔),所有的人都用英语表达自己。视频转换为 MP4格式的标准尺寸的 360?480。视频的长度从 2变化到 5分钟。所有视频进行预处理,以避免介绍的标题和多个主题的问题。许多视频在YouTube上包含入门序列在标题所示,有时伴有视觉动画。为了解决这个问题,第一个 30秒被删除从每个视频。Morency 等人提供改编的影片。4.2 Sentic
18、Net作为一个先天的极性词典的概念,我们使用 SenticNet 3.0,词汇资源,包含30000个概念以及它们的极性范围从-1.0 到 1.0。SenticNet 3.0 还包含所有WordNet影响(WNA)的概念。第一个 10 SenticNet概念词典顺序以及相应的极性表 1所示。4.3 EmoSenticNet我们还用 emosenticnet 55 ,含约 13741的常识性知识的概念senticnet的延伸,包括那些概念的组织表,连同他们的情感标签的愤怒,喜悦,悲伤,厌恶,惊讶,恐惧。为了建立一个合适的情感推理的知识基础,我们采用所谓的混合技术来处理 emosenticnet和概
19、念网。混合是一种技术,在多个数据源同时进行推理,利用它们之间的重叠。混合是一种在多个数据源同时进行推理,利用它们之间的重叠的技术。这两个稀疏矩阵的线性组合成一个矩阵,其中两个初始源之间的信息共享。在执行混合之前,我们把 emosenticnet作为一个类似的概念网的有向图。例如,生日聚会被分配了一种情绪的喜悦的概念。我们认为这些是两个节点,添加HasProperty边缘的断言直接从快乐的生日聚会的节点到这个节点。接下来,我们转换图稀疏矩阵来混合它们。混合两个矩阵后,我们进行了截断奇异值分解(TSVD)产生的矩阵抛弃代表相对较小的变化数据的组件。只保留 100混合矩阵的重要组件,以产生一个好的近
20、似的原始矩阵。数字 100被选经验:原始矩阵使用 100组件能发现最好的近似。4.4. 实验的概述首先,我们提出一个经验方法用于提取关键特性从视觉和文本情感分析的数据。然后,我们描述一个融合方法融合提取的特征来自动识别的整体情绪表达的一个视频: 在 YouTube数据集每个视频被分割成几部分。根据视频的帧率,我们先把每个视频片段转换成图像。然后为每个视频片段,我们提取面部特征的所6有图片,取其平均值来计算最终的特征向量。同样地,音频和文本特征也从每段音频信号中分别提取和文本转录的视频。 接下来,我们融合了音频、视频和文本特征向量形成一个最终的特征向量包含音频的信息,视觉和文本数据。之后,采用监
21、督分类器融合的特征向量来识别的整体极性的每一段视频剪辑。另一方面,我们也进行了一项实验:在决策级融合,把情绪分类的结果从 3个人形式作为输入,产生最终的情绪标签作为输出。5从视觉中提取特征数据众所周知,人类表达情感的方法,在很大程度上是通过脸。面部表情识别的扮演了一个重要的角色的情感在一个多通道流。面部表情分析仪自动识别情感线索与面部表情,和分类的面部表情来定义情绪类别和区分它们。我们用积极的、消极的和中性情绪类的分类问题。在 YouTube数据集提供的注释中,每个视频被分割成部分和每个子段是几秒钟的时间。每一段也标注为 1、 0 还是-1 表示正面、中性、负面情绪。使用 matlab代码,我
22、们用数据集转换所有视频为图像帧。随后,我们从每个图像帧中提取人脸特征。从图像提取人脸特征点(FCPS),我们使用面部识别软件 Luxand fsdk 1.7。从每一个图像提取了 66个系统;见表 2中的例子。该系统被用来构造的面部特征,它被定义为系统之间的距离;见表 3中的例子。gavam 也被用来从人脸提取表情特征的,表 4显示了从人脸图像中提取的特征。我们在实验中使用提取的 fsdk 1.7随着特征提取的特征 gavam。如果一段视频中有一些数字的图像,然后我们从每个图像中提取的特征,并采取这些特征值的平均值,以便计算出最终的面部表情特征向量的段。我们使用了一个 ELM分类,建立从面部表情
23、的情绪分析模型。10 倍交叉验证的数据集产生 68.60%的精度。表格 2一些相关的面部特征点(通过 Luxand检测 66个面部特征点)特征 描述0 左眼1 右眼 24 左眼内眼角23 左眼外眼角38 左眼下眼线35 左眼上眼线29 左眼左虹膜角30 左眼右虹膜角25 右眼内眼角26 右眼外眼角41 右眼下眼线40 右眼上眼线733 右眼左虹膜角34 右眼右虹膜角13 左眉角16 左眉中12 左眉外眼角14 右眉角17 右眉中54 上嘴唇55 下嘴唇表格 3用于实验的一些重要的面部特征右眼与左眼的距离左眼睛的内侧和外侧的距离左眼睛上下线的距离左虹膜角和左眼右虹膜角之间的距离右眼的内外角之间的
24、距离右眼上下线的距离右眼左虹膜角与右虹膜角之间的距离左眉内与外眼角的距离右眉内与外眼角的距离嘴巴的顶部和底部的距离表格 4用 gavam提取的人脸特征。特定的帧的发生时间,以毫秒为单位面对关于轴的位移。它是由正常的位移测量的正面视图的脸在 x方向上面对关于轴的位移面对关于 z轴的位移面对关于轴的角位移。它是由正常的角位移测量的额观点与 x轴面对关于轴的角位移面对关于 z轴的角位移6从音频数据中提取特征我们自动提取音频特性从每个注释的视频。音频特征提取也使用一个 100 Hz的帧频和滑动窗口的女士计算特性,我们使用了开源软件 OpenEAR。具体地说,此工具包自动提取音高和声音强度。Z - iz
25、ation 标准化是用于执行声音正常。声音强度阈值识别样本有或没有声音。使用 openEAR我们提取6373特性。这些特性包括几个统计措施,例如最大和最小值、标准差和方差,一些关键的功能组。一些有用的关键特性提取 openEAR如下所述:8 Mel频率 cepstral系数:MFCC 计算基于短时 Fourier变换(STFT)。首先,对数幅度谱级的拍摄,其次是分组和平滑快速 Fourier根据感知动机 Mel-frequency伸缩变换(FFT)垃圾箱。Jaudio 工具提供了前五 13系数,发现产生的最佳分类结果。 频谱质心:频谱质心的重心是级 STFT的频谱。在这里, Min表示Four
26、ier变换在频率的大小 bin n和帧 i。重心是用来测量光谱的形状。更高的价值重心表明光明的纹理与更大的频率。频谱质心计算如下: 光谱通量:光谱通量定义为平方差的归一化幅度连续窗口:其中 和 分别是 Fourier变换的归一化幅度的当前帧 t 和前一帧的 t-1。谱通量代表局部的光谱变化。 节拍直方图:这是一个柱状图显示不同的相对强弱节奏在一个信号周期的研究,和 RMS的自相关计算。 最强的节拍:它被定义为在一个信号中最强的节拍,在每分钟的节拍,被发现通过找到最强大的桶在跳动直方图。 停顿时间:暂停方向是扬声器在音频段中无声的百分比。 间距:这是使用标准偏差计算一个口语段的间距。 语音质量:
27、音频信号中的 Harmonics噪声比。 PLP:使用 openEAR工具包计算音频段的感知线性预测系数。7文本数据的情感分析文本中的情感识别是一项具有挑战性的任务,主要是因为文本中词语的模糊性、意义的复杂性以及各种因素的相互作用,如反讽、礼貌、写作风格、语言的变异性以及文化与文化的差异。在这项工作中,我们遵循 Sentic计算模式,以文字作为表达语义和情感学,即外延和内涵的信息通常与现实世界的对象,相关的动作,事件,和人。当我们进行观念层面的情感分析,从文本概念提取是实验的基本步骤。下面,我们首先描述的概念提取算法从文本,其次是特征提取方法的基础上提取的概念,概念层次情感分析的基础上。8融合
28、本节讨论了使用文本、音频和视觉方式的信息的特征级融合方法。多通道融合是任何多模态情感分析引擎的核心。正如 3节所讨论的,有 2个主要的融合技术:特征级融合和决策级融合。我们实现了特征级融合将所有9三种模式的特征向量,形成一个长的特征向量。这种琐碎的方法有相对简单的优点,但被证明是产生显着的高精度。我们将每个模态的特征向量连接到一个单一的特征向量流中。此特征向量,然后用于分类的每个视频段到情感类。估计的准确性,我们使用了 10倍交叉验证。9.实验结果在这一部分中,我们讨论了在 YouTube的数据集的实验结果和利用 1提出的方法比较的结果。监督分类,Nave Bayes,SVM, ELM 和 N
29、eural Networks,采用融合特征向量来获得每个视频片段的情绪。然而,最佳的精度得到使用的ELM分类。我们开发了一个实时的多式联运情绪分析的基础上所描述的方法的基础上。该头像允许用户在一个镜头前表达他或她的意见。后来,它分裂成几个部分,每个段的视频被经验设置为 5秒的时间。在第 5-8节所描述的相同的方法,采用从每个分部提取的情绪。图 1显示了一个可视化的头像。一个转录得到的音频文字转录。图 1.多模态情感分析。图 2显示了我们的实时多模态情感分析头像分析视频,并成功地检测到它的情绪随着时间的推移。视频移动和收集来自 YouTube。图 2显示了由头像检测到的视频的第一个 11.5秒的感情。在最初的年代,评论家对产品的积极情绪,其次是负面情绪从 4.4至 2秒。这是一个积极的审查的产品表达的时间间隔4.4至 8秒,并没有情感表达在期间 8至 9.5秒。最后,评论家表达了积极的情绪在产品从 9.5年代到年底的视频。10图 2 实时的多模态情感分析的一个 YouTube视频产品综述。10.总结我们提出了一种多模态情感分析框架,其中包括相关功能的文本和视觉数据,以及一个简单的技术融合的特点,从不同的方式提取。特别是我们的文本情感分析模块已通过功能丰富的 Sentic计算,在我们的文本情感分析系统的性能有了显著的提高。视觉特征也发挥了关键作用,优于国家的最先进的技术。