1、 基于综合比率因子的互信息特征选择方法的改进 华中师范大学学位论文原创性声明和使用授权说明日期:溯乒年习汐日学位论文版权使用授权书学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。艿难宦畚脑诮饷芎笞袷卮斯娑保密论文注释:本学位论文属于保密,在年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。导师签名: 对所在领域的
2、分类贡献度。结果表明结合语义改进的互信息特征选择方法可以在一定程度上有效地提高准确率。关键词:文本分类;特征选择;互信息:综合比率因子;语义信息蛳 鰉,蘄 琣【 , 目特征选择作为文本分类中重要的步骤之一,对文本分类的结果有着至关重要的影响。特征选择是指从原始的特征集中根据某个评判标准挑选出最优的特征子集的过程。在文本分类中,经过特征选择可以有效地降低文本分类时特征向量的维数,降低“维数灾难” 的发生频率,有效地减少了计算的复杂度,并且还提高了文本分类模型的精确度;另一方面,选择出真正对文本分类有用的特征,简化了分类模型,国内外研究现状分为三个时期:,畔提出了在传统的互信息计算公式中引入综合比
3、率因子的方法,通过引入综合比率因子,将传统互信息方法没有考虑到的一些重要因素加入进来,比如特征项的词频、特征项在类问类内的区分度等等,设计出了基于综合比率因予的互信息改进算法,并加入平衡因子饩觥篎负相关的问题。通过实验验证了改进算法的有效性和可行性。论文的组织结构文本分类的介绍文本预处理文本的特征选择关于特征选择方法有很多,以下介绍一些常见的特征选择方法:甈。出现在类盗肺谋炯械募嘎剩琾个类别,则计算公式为:不同的方法:一种方法是最大值法,即分别计算特征杂诿扛隼啾鸬腃值,然芇珻。其中,褪谴硖卣鞔蕋和类别之间的互信息,该值是用来衡量特征表示的是类别出现的几率,即类别的文本总数占所有文本总数的百分比
4、。布尔表示模型概率表示模型:概率表示模型是根据一个特征在文中表示的就是特征词在文本中的权重表示,一般的权重计算公式采用的是 ,公式如所示。朴素贝叶斯分类算法是一种基于统计学的机器学习算法,其基本的理论原理就梢杂霉絧燃扑愕玫剑鴓梢杂霉计算。这鑫谋镜睦啾鹦畔磁卸掷辔谋臼粲谀母隼啾稹榭鱿拢琄的取值不会很大,因为这不仅需要大量的就散丌销,而且也不会很大程度上提高文类的准确文本向量粲诶啾餋娜氐募扑愎皆蛉表示。珻簊,琧准确率以及召网率中参数的表示而,:婴准确率和召回率只片面地反映分类器的局部性能,而不能够反映文本分类总体回率具有相同的重要性。因为在文本分类结束后对于每个类别都可以计算出一个召回率和正确率。
5、因此,可以结合每个类别的分类结果来评价分类器的整体性能。经常使用的指标有两种:微平均和宏平均。所谓的微平均就是指根据正确率和召回率计算公式直接计算出总的召回率和正确率值,而宏平均是指先计算出每个类别的分类正确率和召回率,然后对正确率和召回率再分别取平均得到总的召回率和正确率。其中微平均更多地受分类器对一些常见类分类效果的影响,而宏平均则可以更多的反映对一些特殊类的分类效果。籶其中,侵秆盗肺谋炯械乃欣啾鸬奈谋荆琁是指类别的数量。本章小结第三章基于综合比率因子的改进互信息特征选择方法在类别的所有文本中不出现特征词奈谋靖鍪缮鲜龉娇芍碧卣鞔蕋最大值法:如果只对单个文本类别来说,特征词的互信息值越大则代
6、表特征词与该类别的当条件概率相同的时候,会更倾向于选择稀有特征,忽略了高频特征词对文本谰荽车幕畔卣餮窆剑碧卣鞔蕋在类别中的文本中出现的概率大于在整个文本集中出现的概率,即,则互信息的值大于零,即方法计算特征的整体互信息时,如果特征与类别的负相关互信息值所占的比例强信息特征的标准互信息改进的设计特征选择算法称为 综合比率因子考虑到了能够区分特征项与类别之间相关性和一些能够代表文些代表性不是很强的稀有词。综合分析原因,可知是由于传统的互信息算法没有考特砸在类躺内的平均频度隔罴糕糕器曼鬻同时,基于上面所提出的第四个假设可知,从文本词频的角度,如果某特征词在类别中的平均词频越高,而相对的在其他的文本类别中平均词频越低,则该特征词越能代表文本类别。则本文用如下式子来表示最终的类内平均词频信息,该值越大则能够表明特征词与类别的相关性越强。传统互信息特征选择方法中没有考虑特征词在文本类别内的分布信息,这样可能会发生那些在类内分布相对比较均匀的特征词因为计算出的互信息值太低而被过滤掉,从而没有选入到特征子集中去,导致特征子集的质量和代表性不够强,降低了文本分类的性能。因此本文将引入特征词在类内类间的分散度信息来修正传统互信息方法。