1、 硕士学位论 又杨彪学位授予单位重迭童通太堂 劬珻重庆交通大学学位论文原创性声明,喀,、, 萎羍浴 再,网路中节点,质量,也可以用来描述网络中的节点,的固有属性。在实际的网络中,网络节点的属性具有相当多的物理含义。比如在本文讨论城市交通络中,节点的固有属性可以是网络中节点的脆弱性值和弹复性值。改进的网络节点拓扑势根据对上节中所引入的拓扑势的概念的相关分析,可以认为网络中某个节点除了受到自身作用,还有邻近节点作用力共同影响而产生的势,可以用网络中节点拓扑势的大小来描述。网络节点的固有属性的选择相当重要。单一的固有属性可能使得结果具有一定的片面性,导致其不能在整个网络拓扑结构的层面上全面合理地分析
2、节点的重要性。故而,本文在拓扑势的基础上提出了改进的拓扑势计算新方法,网络中任意节点的拓扑势可表示为:文本情感分析指研究分析人们对产品、服务、组织机构、事件和话题等进行评价时表达的意见、情感、评价、态度和情绪的特殊自然语言处理研究领域。涉及到多项具有挑战性研究任务,根据研究任务的不同,文本情感分析可以分为情感分类、情感信息抽取、情感信息检索和归纳。研究的过程包括预处理、情感信息抽取、分类器选择、结果归纳展示。论坛、门户网站、电子商务平台等,这些文本能直接或间接反映人的行为和思想,所以研究分析这些文本的情感有许多的用处。关注分析电子商务领域的评论文本情感,无论对消费者还是商家都有重要的意义。目前
3、文本情感分析虽然取得了较大发展,但对情感极性等级分析研究还不足。文本情感存在固有模糊特性,由此可以利用模糊理论的隶属度函数,进行情感极性等级计算。词情感,再用舳群扑愦视锴楦屑缘燃叮菇情感词典。其次,利用整数线性规划脑霳情感词典,得到领域情感词典,使词典最大化适应电子商务领域文本分析。然后,改进传统的加权统计算法,即预先使用投票选举法判断句子极性,再计算情感极性等级,通过与未选举法的极性等级求平均值,作为最终的句子极性值。最后,使用领域情感词典抽取文本中的情感信息,包括情感词典、否定词、程度副词,实现了一个面向电子商务领域的情感分类系统。通过手工标注语料的褒贬极性作为检验实验结果的金标准。实验结
4、果显示:领域高了,这说明对情感分析进行的初步尝试有较好效果。关键词:文本情感分析,领域情感词典,模糊理论,整数规划,极性等级计算 锄 瑆 鐉 瑃甋瑃 瑆,琤瑀甌 琭基于词频的方法 算法词语情感程度度量领域情感词典与情感信息抽取评论文本情感极性分类算法本章小结第六章总结和展望 全文总结展望 致谢参考文献在学期间取得的学术成果研究背景【系统和自助推荐系统,前者可以用来帮助商业智能决策,程的总称。主要利用机器自动分类方法把情感文本分类成褒义极性和在文本分类理论快速发展的背景下,其在情感分析方向的应用也随之快速发展。随着 正式提出文本的情感分析后,在他的文章“情感分析准确率能达到。在 的文章“国内外研
5、究现状大熵苯咏星楦蟹治觥撕笥腥擞肒近邻方法】和遗传算法【】进行分类,但是效果不佳,所以其他研究大多基于机器学习分类算法进行情感分类。 从研究对象的粒度角度,情感分析研究的方法是把文本对象进行不同粒度的取的情感词汇步惺堤进行情感分析。下面介绍研究者对各粒度关注的焦点句子层:此层次研究句子文本并且分类句子表达的情感。它的研究非常接近主观性分类】,其主要区别是表达真实客观信息还是表达主观情感,前者称为客观句,后者称为主观句。然而要注意的是主观性不能等同于某些客观句所暗示的情感。例如,“我上个月买了一台苹果手机,它的屏幕已经掉了” 。此句是客观旬,但它却表达了贬义情感。实体层:文档层和句子层的分析都没
6、有精确的给出人们喜欢和不喜欢的对象。知识库为基础进极性传递算法,刻岢隽,把 应用到中文的研究之中。随后国内研究者进行了大量综述性的分高潮时期,从不情感分析概念引入到国内。近几年国内的情感分析慢慢进入研究的同的侧面进行分析研究,已经提出了许多有重要成果的汉语情感提高中文情感分析的准确率文本情感极性计算是情感分析的核心内容,目前的研究者很少关注情感等级问题,仅将情感文本分类为褒义极性、贬义极性和中性结果,而未对极性强度量化计算。因为情感本身就具有模糊特性,本文选择模糊理论中的隶属度作为定量化研究计算的基础,一建立情感隶属度函数,提出基于模糊集的极性等级分析。建立可靠情感词典本文的研究具有以下一些理
7、论和实际意义。研究中的困难与不足电商评论的自身特点氍:经常期向缣獾攘撕贸航溃曷酋干螧点了也是这样,膏符搓葛发货青煮晨,照是物墨撒图评论长短句举例的方法:观点比较。它是通过和其它评价对象的比较来描述观点,例如,“百事可学科,取得了较大的发展。最后,情感信息抽取的研究属于情感分析的基础,其中大多数的研究都是基于的计算方法和基于规则的情感计算方法分类器和情感分类归纳。其中最主要的过程是情感信息抽取和分类器的选择,这是论文的重点内容。隶属度分类。算法的准确率。本文其他部分的安排如下:构的模型实现文本情感分析,根据情感分类过程,探讨用到的相应方法和技术;工作的研究方向。其中基于机器学习的方法取得的成果最
8、大,经过 等人的改进,目前准确率基于机器学习方法最大熵算法 琈、支持向量机算法其中:第二章情感分析的研究方法及相关算法言:苀基于词频的方法畁 表示和分母分别表示词语相关场交集和并集的元素个数。第二章情感分析的研究方法及相关算法和基于机器学习的有监督情感分类相比,基于规则的无监督学习方面的研究器翻译器实现日文短语级情感分析,惴乔楦星阆颍慊畔惴表评价指标计算公式表召回率筹在文本情感分析之前,需要对情感文本进行预处理。该过程包括文本分词、词性标注、文本表示、降维操作等,其中文本表示为可选步骤。首先,在处理文本时需要以单个词为处理单元,这就需要文本分词,具体分词和词性标注技术将在下文中讨论;其次,进行
9、特征提取,并统计出特征词语出现的次数,用这个次数表示文本即为向量空间模型】。最后,由于这样简单得到的向量空间蛄靠占淠该方法将特征词出现的频次作为权重。公式如下:, 其反比。公式如下:木疍,第三章文本情感分析的流程及应用动力十足。”该情感语句的评价对象为“宝马” ,观点持有者为“ 我朋友”,而评价其占数据集中总文档数目的比值,计算公式如下:即信息增益。在文本分类中,利用条件熵来表达信息熵的增益,此方法在机器学籋第三章文本情感分析的流程及应用随机游走模型来计算单词的情感极性;后者主要通过语义或共现原理将种子词进第二类分法:人工词典是自然语言领域学专家根据其强大的语言学知识,手工收集和整理的瑂珽等。
10、比较常用的知网,包含了鲋形某潭却视铩个中文正面情感词语和个中文负面情感词语。人工词典有很大的实用性,准确率高,一般性研究都采用这些词典,但是它的缺点是耗时量大,不宜变更,所以在研究中一般不单独使用。文本情感分析中极性词的需求远远大于词典中词语数量,使用合适方法来扩展情感词典是研究工作者一直在努力的方向。该方法和第一类分类方法中基于基础情感词典的方法类似,它的基本思路是:对已有词典的基础词语,利用语义的相似性原理,通过自动迭代的方法去扩展词典的情感词。该方法的优点是能比较容易和快速的找到大量的情感词,能在单位时间内完成算法的迭代;缺点是情感识别错误率,且与上下文的关联性低。本文在实验中选用此方法
11、进行情感词典的扩展,然后针对其缺点提出改进词典。鞒煞址治情感分析是一项以应用为导向的研究课题,然而情感分类后呈现的结果并不是用户所能直接使用的。赵妍妍【】等提出情感分析技术与用户的交互主要集中于情感信息的归纳上。情感信息的归纳针对大量主题相关的情感文档,自动分析和归纳整理出情感分析结果提供给用户参考,以节省用户翻阅相关文档的时间。情感信息的归纳主要以情感文摘的形式存在,这也是本节开头提出的分析流程的最后一个环节。建立情感文摘有两种方式,一种是基于产品属性的情感文摘【】;。文本情感分析的应用非常广泛,可以应用到许多行业,其中最重要的几个应第三章文本情感分析的流程及应用机器人图情感分析用于人机对话过程