1、话题型微博语言特点及其情感分析策略研究,中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心,侯敏 滕永林 陈毓麒 李雪燕 郑双美 周红照 侯明午,论文框架,1.简介2.话题型微博语言特点3.话题型微博情感分析采取的策略4.实验和分析5.启示和思考,论文框架,1.简介2.话题型微博语言特点3.话题型微博情感分析采取的策略4.实验和分析5.启示和思考,简介话题型微博语言特点话题型微博情感分析采取的策略实验和分析启示和思考,1.简介,本文在深入分析了话题型微博的语言特点的基础上,提出了基于短语情感词典及语义规则的观点句识别及评价对象提取的策略。实验和评测结果证明,这些策略和方法取得了较好的效果
2、。,简介话题型微博语言特点话题型微博情感分析采取的策略实验和分析启示和思考,2.话题型微博语言特点,2.1 句子简短,单句多微博有字数限制,因而往往短小。话题型微博又因为有一个明确的话题,话题型微博中句子相对简短,单句居多。,2.话题型微博语言特点,2.2 观点负面倾向多话题型微博的形成是基于一定的社会话题和社会事件,而当今社会引起关注的话题负面性较多,这就使得话题型微博在表达观点时,以否定倾向居多。,2.话题型微博语言特点,2.3 表达情感强烈,理性评价淡化 网络环境的特点使得用户不愿也不易使用逻辑性强的理性话语表达观点,因而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成为话题
3、型微博观点句在表达情感和态度时一种较广泛的表达方式。,2.话题型微博语言特点,2.4 口语色彩浓重,情感因子颗粒度大 微博具有浓重的口语色彩,体现句子观点的情感因子颗粒度加大,往往不再是词,而是短语。(1)#90后暴打老人#什么玩意了。(2)#官员财产公示#有个鬼用,公示出来的也要有人信吖?,2.话题型微博语言特点,2.5 观点表达的隐晦、非直接性 在话题型微博中,除了用一些很“给力”的词语明确表达观点外,人们还会采用一种隐晦的、非直接的方式,以言外之意表达观点。(1)#食用油涨价#我可以说脏话吗?(2)#三亚春节宰客#当地的政府部门这么做的用意是什么?掩耳盗铃?越抹越黑?还是让游客永远不去三
4、亚?应该去测测智商了!,2.话题型微博语言特点,2.6 评价对象省略 微博用户往往可以直接对整个话题或话题的某一部分进行评价和表达态度,所以,话题型微博的评价对象常在文本中省略。(1)#菲军舰恶意撞击#抗议!(2)#菲军舰恶意撞击#真可恶(3)#菲军舰恶意撞击#欺人太甚(4)#菲军舰恶意撞击#可悲啊,2.话题型微博语言特点,2.7 语言不够规范 含有大量非规范性的语言文字以及其它噪音,也是话题型微博语言的一个特点。(1)#疯狂的大葱#找点空闲,找点时间!带着钱包常去http:/ 话题型微博情感分析采取的策略,整体思路: 情感分析,目前主要有两种基本方法。一种是基于语义的词典及规则方法,一种是基
5、于标注语料的机器学习方法。 我们主要采取的是基于语义的词典加规则的方法,针对话题型微博,我们主要采用了加大情感因子颗粒度,构建基于短语的情感词典、通过短语规则确定句子极性、重点研究否定形式、建立基于话题的OBJ表单等策略。,3. 话题型微博情感分析采取的策略,3.1 构建基于短语的情感词典 话题型微博情感表达颗粒度大,因而仅仅依靠传统的情感词典,依靠句子中是否有情感词来进行观点句的判断,会造成很多错判,因此我们构建了一部基于短语的情感词典。 短语情感词典将明确表达观点的情感短语甚至短句都收录其中。 不得好死、不咋的、扯犊子、就好了、瞎折腾个屁、不是找抽吗、什么玩意儿 一些明确表达观点的口语词、
6、网络用语和脏话也必须收录到情感词典中 得瑟、傻逼、狗逼、操蛋、犯贱、傻B、欠揍、找死,3. 话题型微博情感分析采取的策略,3.2 通过短语规则确定观点句及其极性 我们建立了短语规则库,试图解决情感短语词典不能处理的那部分句子是否观点句以及句子的极性问题,主要是长距离搭配形成的情感短语或者是有歧义的短语搭配。是/v #!,|,|;/% 的/u 责任/n = #4:-0.5(1)#六六叫板小三#这种事是3方的责任;不能单独怪哪一方;(2)#90后暴打老人#我们指责的不应该是90后,人之初性本善,这是国家、学校、家长教育的责任。,3. 话题型微博情感分析采取的策略,3.3 建立否定形式规则库使用否定
7、形式是话题型微博语言表达否定态度的一种重要手段,因此有必要通过建立否定形式规则库来确定短语和句子的倾向。所谓/b 的/u */n&po = -(N3*0.4) #官员财产公示# 所谓的民主,就是你是民,我是主。,3. 话题型微博情感分析采取的策略,3.4 建立基于话题的OBJ表单 话题型微博语言话题集中,评价对象往往省略,针对这种情况,我们在评价对象提取模块中建立了一个基于话题的OBJ表单。(1)#六六叫板小三#无聊(2)#六六叫板小三#都贱货!(3)#六六叫板小三#维护自己的爱情,做的对,给力(4)#六六叫板小三#破坏别人家庭,变态。,简介话题型微博语言特点话题型微博情感分析采取的策略实验和
8、分析启示和思考,4.实验和分析,运用上述策略,我们构建了一个基于情感短语词典以及语义规则的情感分析系统CUCsas,并以中国计算机学会(CCF)2012年主办的第一届中文微博情感分析评测提供的评测语料为对象,对20篇话题型微博语料进行了观点句识别、观点句极性识别和观点句评价对象提取的实验。,4.实验和分析,4.1 实验效果,4.实验和分析,4.2 存在的问题(1)在观点句及其极性的识别上,由于规则方法本身的限制,使得我们建立的情感词典和规则库很难覆盖全部语言现象和微博全部的语料。 #彭宇承认撞了南京老太#这事儿还有人信啊.(2)对微博语料进行预处理时,由于分词错误使得一些词不能与情感词典中的词
9、条匹配,因而造成了观点句识别上的流失 #皮鞋果冻#以前敢吃,现在不敢吃了,想想都好恶心,4.实验和分析,4.2 存在的问题(3)微博语言表达上的隐晦、非直接性,使得系统在处理深层语用时也会出错#皮鞋果冻#JS有点良心吧(4)由于微博语料的非规范性,错别字和标点符号的误用现象比较普遍,这也在很大程度上影响了规则的匹配,造成一些观点句评价对象的提取错误。#彭宇承认撞了南京老太#-老百姓太不容易了,希望我们的党能领导人民好好走下去。,简介话题型微博语言特点话题型微博情感分析采取的策略实验和分析启示和思考,5.启示和思考,5.1 规则的方法不是完全无用的5.2 语言计算要加强对语言的研究5.3 语言计算要注重语域,报告完毕请各位老师同学批评指正,