1、1中文微博观点句分类及情感倾向性判断 1郭云龙 1, 许文龙 2 尚勇 1 梁庆林 11.西南大学计算机与信息科学学院,重庆 400715;2. 北京理工大学信息与电子学院,北京 100081; 通讯作者,E-mail: 摘要 近期随着微博等网络社区的飞速发展,与微博数据相关的学术研究受到了广泛关注。本文依托参加CCF 自然语言处理与中文计算会议(NLP 2. School of Information Science and Electronic Engineering, Beijing Institute of Technology, Beijing, 100081; Correspond
2、ing Author, E-mail: Abstract Traditional adaptive SC-FDE bears a major drawback of excessively high feedback rate. This paper tackles the problem by proposing a FR-ASC-FDE scheme which was derived from a CR-ASC-FDE model. Specifically, a normalized feedback factor criterion,which is responsible to
3、determine the interval of PCSI feedback,was obtained , and accordingly, appropriate FR-ASC-FDE PCSI feedback patterns were designed with respect to different metropolitan environments. Simulations show that the proposed FR-ASC-FDE scheme dramatically reduces PCSI feedback rate under various fading s
4、peed of dual-selective channel environments, while still consistently keep excellent BER performance. Key words SC-FDE; PCSI; dual-selective channel; correlation time; AR(1) 1 引言1.1 研究背景随着 web2.0 的发展,微博,即微博客(Micro Blog)的简称,一个基于用户关系的信息分享、传播以及获取平台迅速兴起。据统计,新浪微博截至到 2012 年 2 月,注册用户已突破亿大关,用户每日发博量超过亿条。网络社区
5、的信息量在与日俱增,这些资源共享信息为用户的学习、生活、工作都带来了的巨大便利。但同时,巨大的冗余信息也使人们很难在短时间内准确、迅速地获取对自己有用的信息。所以,针对微博数据的自然语言处理已成为国内外研究热点,而中文微博观点句抽取以及中文微博观点句情感倾向性判断作为该热点下的两前沿课题,也受到了众多学者的关注。近年来,在ACL、SIGIR、COLING 等国际会议上,都有特别的议程探讨相关领域的发展,以及 TREC Blog 国家高技术研究发展计划专项经费(2008AA01Z226)资助收稿日期: 2009-12-03; 修回日期: 2010-04-12;网络出版时间:网络出版地址:2Tra
6、ck、 NTCIR、COAE 等评测也涉及该研究热点。1.2 国内研究现状中文微博观点句的抽取以及中文微博观点句的情感倾向性判断,可以理解为基于数据文本分类中的的一种二分类的句子级文本分类技术。当前国内对于句子级文本分类的主要方法还不成熟,算法比较单一,大致可以分为三个部分:(1)基于词典的方法。 (2)基于有监督的机器学习方法。 (3)无监督的方法。基于词典的方法,利用预先构建的词典(可以是人工标注或是机器统计的) ,处理文本中出现的词语其感情信息,进而判断其主客观性(即观点性或非观点性) 。进而将词典分为正向情感词和负向情感词,统计待测文本中两类词语相差值,从而确定该文本情感类型。一般词典
7、方法会结合标点符号和规则一起作为特征值,以姚天防,彭思威(2007)112】以词语和标点符号作为分类特征,对特定领域进行研究。基于有监督的机器学习方法,利用训练集,采用某种机器学习方法,对测试集进行分类。常用的机器学习方法有, 包括朴素贝叶斯 ( Naive Bayes )、最大熵( Max Entropy)、支持向量机(Support Vector Machine) 。通过选取特征值,常见的方法有信息增益方法( IG) 、卡方分布(CHI)值统计、文档频率(DF)、词频反文档频率(TF-IDF) 。是目前最主流的文本分类方法。无监督的方法,有基于情感基准词的方法,也有基于图论分割句子,结合一
8、定的规则,对文本进行分类。但这类方法适用领域太窄,或者说对情感基准词依赖太高。2 相关工作通过参加中国计算机学会举办(CCF )自然语言处理与中文计算会议(NLP&CC 2012)的中文微博情感分析&词汇语义关系抽取评测。选取子任务 1(观点句识别)与子任务 2(情感倾向性判断) 。根据主办方提供的评测数据。评测数据来自腾讯微博 1,全集包括 20 个话题,每个话题采集大约 1000 条微博,共约 20000 条微博。数据采用 XML 格式,已经预先切分好句子,共 31675 句。2.1 观点句概念与情感侵向性概念本评测中观点句的定义不包括表达自我情感、意愿或心情的句子,只限定于对特定事物或对
9、象的评价,不包括内心自我情感、意愿或心情。 例如“我感到很高兴” ,这样的句子是情感句,但不属于本评测定义的观点句。 “我真心喜欢 iphone5 的屏幕效果。 ”该句子属于本评测定义的观点句。本文参照张博(2011) 12 中文观点句提取一文中,对上述概念又分为显性观点句与隐性观点句。显性观点句:以指示性动词作为句子的核心谓语,明确地表达说话人观点的句子,称为显性观点句。根据该文章,我们修改其总结的 72 个指示性动词,并加入微博用户大量使用的网络指示性动词,构建出新的指示性动词表。当指示性动词出现时,人们通常是在明显地、高调地发表某些评论。此类词语的出现,会让研究人员在第一时间很确定地将其
10、判定为观点句。这类句型具有较明显的观点句句法特征,我们将其统称为显性观点句。我们将使用工具模版标注的方法对显性观点句进行提取。隐性观点句:不含有指示性动词,但整体意图是为了发表某种观点、看法或评论的句子,称为隐性观点句。例如:日本人都该死!该例句中不存在任何指示性动词,但通读全句后,我们可以看出这句话是在对“日本人”这个对象进行分析并做出了评价。这类观点句没有明显的观点表达标志,并且表达形式多变,因此我们将此类观点句定义为隐性观点句。我们将主要采用 SVM 来处理此类句子。SVM 是基于数学向量对其进行分类的一个工具,在机器学习文本分类领域有很强的实用性,其必须先将文本转换为向量,并输入一定的
11、训练集,然后通过训练机对测试集的向量自动进行分类,其中关键性问题在于特征向量的选取、转换。情感倾向性:所有的观点句都是有情感倾向的,同时有情感倾向的句子也一定是观点句。我们将其简化为三种倾向:积极,消极和中性。我们通过建立的情感词典,其正负向情感词语的在待评测观点句中的差值,从而判断该观点句的情感倾向性。 (我们最初的设想为 SVM 的 2 歩 3 分类,但可能由于特征值选取太少或者训练集标注不准确,SVM 效果很差,从而选择了基于词典的方法。 )2.2 文本预处理3分词是文本预处理的重要环节,中文有别于英文,没有明显的词语分隔标志,中国科学院计算技术研究所研制出了汉语词法分析系统(ICTCL
12、AS) 能有效的快速的分隔出带有明确语义的词语。我们对其所分出的词语去噪,并采用其词性标注功能。由于 ICTCLAS 对繁体字支持较弱,我们先对待评测数据进行简繁体转化。这样,ICTCLAS 的分词结果可直接用于斯坦福句法分析工具(Stanford Parser)的输入以及SVM 所选取特征向量值的计算。3 工具使用与算法设计前文给出了国内目前对于该领域的研究现状,本文根据谢丽星(2012)23 基于层次结构 的多策略中文微博情感分析和特征抽取一文中对于主流方法的总结以及张博(2011) 12 中文观点句提取一文中对文本观点句提取的方法,决定采取采取工具模版标注及 SVM 特征分类方法提取微博
13、观点句。将采用基于Stanford Parser 工具及构建情感词典对微博观点句进行情感倾向性判断。3.1 观点句提取设计前文给出了观点句的概念以及本文对显性观点句和隐形观点句的划分。本文将使用斯坦福句法分析工具(Stanford Parser)23 结合构建的指示性动词表及显性观点句构成的模版规则,对显性观点句进行提取。将使用支持向量机分类方法(SVMs)123 结合 12 个特征值筛选对隐形观点句进行提取。3.1.1显性观点句提取设计斯坦福句法分析工具(Stanford Parser)是一款以 Java 实现的开源句法解析工具,主要基于优化的基于概率规则集和词汇化依存句法分析方法,是一个词
14、汇化的概率上下文无关语法分析器,同时也使用了依存分析。根据不同的语法观点可以输出不同的的分析结果。所以,可以认为是一个使用混合分析方法的剖析器。 (http:/nlp.stanford.edu/software/lex-parser.shtml )其效果图(我真心喜欢 iphone5的屏幕效果。 )图 1 斯坦福语法分析工具效果图Fig. 1 BER Performance of FR-SC-FDE, fD = 17.5Hz本文使用斯坦福句法分析工具,先把待测盘数据分离出若干个分句(IP)语法树,结合构建的指示性动词表与显性观点句构成模版,对语法书中词语进行匹配,确定符合模版规则分句,从而判断
15、该句子是否为显性观点句。我们参照张博的论文将显性观点句的句法结构总结为以下三种模版,这三种模版均是以指示性动词作为匹配的起始点:(1)M1 =NP+ Indicative Verb+ADJP此模式的含义是,句子的主语是名词短语,句子的谓语动词或几个谓语动词基之一为指示性动词,且此谓语动词的父节点的其他子节点中存在形容词短语。(2)M2=NP+ Indicative Verb+ADVP此模式的含义是,句子的主语是名词短语,句子的谓语动词或几个谓语动词之一为指示性动词,且此谓语动词的父节点的其他子节点中存在副词短语。(3)M3=NP+Indicative Verb+VC 是此模式的含义是,句子的主
16、语是名词短语,句子的谓语动词或几个谓语动词之一为指示性动词,且4此谓语动词的父节点的其他子节点中存在动词“是” 。3.1.2隐形观点句提取设计支持向量机 1,英文为 Support Vector Machine,简称 SV 机(论文中一般简称 SVM) 。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。他们也可以认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。已经被广泛应用于文本分类领域。本文使用台湾大学林
17、智仁教授开发的 libsvm。SVM 常用的特征选取方法有以下几种: 文档频率 DF、信息增益 IG、 、卡方统计 CHI、词频反文档频率(TF-IDF)等,比较这么多的统计后,我们选取了卡方统计 CHI。( 公式会用公式编辑器调整 实验室WPS 用不来)模式 p 与文本种类。j 的 CHI 值。由于本研究属于二分类问题,所以 cj 即为观点或非观点。其中,N表示训练集中的句子总数,A 表示 cj 类中模式 p 出现的次数,B 表示非(c j)类中模式 p 出现的次数,C 表示 cj 类中没有出现模式 p 的句子数, D 表示非(c j)类中没有出现模式 p 的句子数。根据上述方法,我们参照该
18、领域主流方法以及相关论文,结合自我思考,选择如下几个方面作为特征值备选:1) 情感词即带有某种情感倾向的形容词。通常,当某个人发表了一些带有情感倾向的言语时,我们会认为它带有观点性。实验所用的情感词词表包含 9472 个情感词,它由两部分组成,一部分是 HOWNET 的情感词词典,另一部分是从实验语料中提取出的形容词。在后面的实验中我们简称此特征为 F1。对于 F1 的处理,我们首先将其看做一个 9472 维的特征向量,每一个维度的值用 CHI 值来表示。但最后发现,用此方法处理,并不好,因为一句话中能包涵的情感词是极其有限的,这将导致一句话形成的向量矩阵特别稀疏,并极度影响后面向量 SVM
19、的处理,因此我们将其做了如下修正:a. 将情感词典进行修正,原情感词典中,有一些不符合本文的判断依据,因此对其进行修正,最后形成 8223 个词语的情感词典。b. 特征值的修正。我们在此项中放弃使用 CHI 值。我们给每一情感词赋予权值,初始值都为1, 在处理训练集时,当情感词 t 在观点句中出现,则将 t 的权值加一,若 t 在非观点句中出现,则将 t 的权值减一,最后形成情感词的权值表。在对测试集处理时,比对该权值表,每一句只对应一个一维向量,该向量的值等于句中所有情感词的权值之和。2) 动词通常是发表主观言论的标志,如“表示” 、 “相信” 、 “认为” 、 “预测”等,我们最终归纳了
20、72 个动词(见 2.3.1.1 表格) ,将其作为实验所用的指示性动词词表。在后面的实验中我们简称此特征为 F2。处理方式:在对比 72 维的 chi 值和 1 维的频率统计词的效果之后,我们选择了使用 1 维的频率统计,即如情感词的处理方式相同。3) 副词上文提取的情感几乎都是形容词性的,我们就设想统计副词也作为 SVM 分类特征值。但微博用户在1 http:/zh.wikipedia.org/wiki/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA#.E4.BB.8B.E7.BB.8D5发表博文中副词太少,或者错误地发成了形容词(“地”发成“的
21、” ) ,由特征值 F1 统计,导致副词的参考价值很低,所以我们不考虑该词性。4) 表情表情,作为微博的特色之一。直观、形象地表露着用户的情感、态度。应为微博观点句的重要参考因素。但经过我们观察发现,用户对表情使用的随意性令表情在体现用户观点态度上的作用大大降低。用户使用表情时往往并不是真实心态的写照,而是随性,搞怪心理。所以就不选取副词作为特征词。5) 网络词6) 词性的统计我们认为,观点句中的词性应该会展现出明显的特点,因此采用对观点句的词性进行统计,作为向量。将其称为 F3.在中科院分词工具中,能将词语具体定义为 96 种词性,因此我们使用 CHI 值,生成了一个 94 维向量作为特征,
22、但在实际应用中,发现这样的准确率很低,并影响 SVM 的分类。后来分析发现,这样简单使用,并没有将其上下文的关系体现出来,因此对其进行改进,我们选用连续词性的组合来作为特征。但连续词性的组合将会有 96*96=9216 种,因此预计将会出现情感词最初始处理时的方式(稀疏矩阵) ,实验验证后,确实效果不理想,因此,我们在处理训练集时,统计 CHI 值的前一百,将其作为特征,形成一百维的特征向量,最后的处理结果,还是较为理想的。7) 词语的统计一些特定词语往往充分体现着用户的态度,这里的词语具有普遍性,是经过中科院分词系统词语统计能得到一定的效果,我们称其为 F4。鉴于词性的统计结果,我们直接对单
23、个词语的特征和连续两个词语的特征都进行了统计,最后,由于训练集实在有限,导致连续两个词语的作用效果并不好,最后选用了单个词语的特征,但同样我们在处理训练集时,统计 CHI 值的前两百,作为特征,以避免稀疏矩阵的出现。表 1 FR-ASC-FDE 的 PCSI 反馈方案Table 2 PCSI feedback schemes of FR-ASC-FDE最大频移 fD / Hz PCSI 反馈间隔(Blocks 数目N0)PCSI 反馈速率 RPCSI / kbps 归一化反馈因子 FF 是否成立?STDF17.5 50 128 0.07 是17.5 100 64 0.14 是35 25 256
24、 0.07 是35 50 128 0.14 是175 2 3200 0.028 是175 4 1600 0.056 是350 2 3200 0.056 是表 1 中所设计的所有 PCSI 反馈间隔 N0 均满足* MERGEFORMAT Error! Reference source not found.式。节 Error! Reference source not found.将分别针对以上各种 PCSI 设计方案进行性能仿真并分析仿真结果。4 实验数据本文重点关注了 ASC-FDE 中 PCSI 反馈速率 RPCSI 过高、占据大量频谱资源的问题。在介绍了 AR(1)时变信道模型和本文所给
25、出的恒定速率 ASC-FDE 系统模型之后,提出了降低 RPCSI 的 FR-ASC-FDE 方案并且给出了合理设计 PCSI 反馈间隔的 FF 判据;并且针对各种不同的城市应用环境和移动速度分别给出6了 FR-ASC-FDE 的 PCSI 反馈方案。 FF 判据理论简洁,FR-ASC-FDE 方案易于实现。仿真表明,所设计的 FR-ASC-FDE 在保证 BER 性能的前提下,针对双选信道不同衰落速率都具有较好的 PCSI 反馈效率。参考文献1 Benyamin-Seeyar A, Falconer D, Shani D. IEEE standard for local and metrop
26、olitan area networks part 16: air interface for fixed and mobile broadband wireless access systems amendment 2: physical and medium access control layers for combined fixed and mobile operation in licensed bands and corrigendum 1. IEEE Std 802.16e-2005 and IEEE Std 802.16-2004/Cor 1-2005 (Amendment
27、and Corrigendum to IEEE Std 802.16-2004), 20062 Myung H G, Goodman D J. Single carrier FDMA: a new air interface for long term evolution. Wiley Publishing, 20083 Falconer D, Ariyavisitakul S, Benyamin-Seeyar A, et al. Frequency domain equalization for single-carrier broadband wireless systems. Commu
28、nications Magazine, IEEE, 2002, 40: 58664 Gong Liang, Du Yan, Li Jianfei, et al. A new channel state information utilization criterion in SC-FDE. Radio and Wireless Symposium, 2006 IEEE, 2006:19 225 Du Yan, Gong Liang, Li Jianfei. Utilizing channel state information in SC-FDE: an optimal signal subs
29、pace approach. Submitted to IEEE Trans. Wireless Commun. (Available at http./www. ise. sdu. edu. cn/duyan/file/paper. pdf), Shandong University, China, 20056 Wang Lili, Du Yan, Sun Xiaojun, et al. Adaptive CSI utilization in fast fading multipath channel for SC-FDE System. Communications. 2006 Inter
30、national Conference on Circuits and Systems Proceedings, 2006: 8438467 Dardari D. Ordered subcarrier selection algorithm for OFDM-based high-speed WLANs. IEEE Transactions on Wireless Communications, 2004, 3: 145214588 Niu Huaning, Shen Manyuan, Ritcey J, et al. A factor graph approach to iterative
31、channel estimation and LDPC decoding over fading channels. IEEE Transactions on Wireless Communications, 2005, 4: 134513509 Greenwood D, Hanzo L. Characterisation of mobile radio channels. Pentech Press, 199210 Erceg V, et al. Channel models for fixed wireless applications. IEEE 802.16a cont. IEEE 802.16.3c-01/29r4, 2003