1、基于语义关联和信息增益的TFIDF 改进算法研究,基于词频反文档频率(TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。,文本分类通常有文本的预处理、文本的向量空间模型表示、文本特征提取和分类器的训练四个步骤。在研究文本分类的过程中,特征提取是最关键的环节之一,可以起到降低向量维数、简化计算、去除噪声等作用。故而,特征提取的好坏
2、将直接影响文本分类的准确率。特征提取的基本思想是构造一个评估函数,对特征集中的每个特征词进行权重计算,然后对所有的特征词按照其权重值的大小进行排序,选择预定数目的最佳特征作为最终的特征子集。在文本分类中常使用的特征选择方法包括文档频率(document frequency)、互信息(mutual information)、信息增益(information gain)、 统计(CHI)、期望交叉熵(cross entropy)、文本证据权(the weight of evidence for text)、优势率(odds ratio)和词频反文档频率等。,对于传统的TFIDF 特征提取算法,目前
3、已有文献对其的不足进行分析及改进,效果比较显著的是通过引入信息熵对其进行改进,解决了词语在类别间的分布不均造成的问题。比如字面不同的词语但可以表示同一个含义,这样的一组词的语义特征是一样的,不能忽视它们共同出现对词频的影响。若忽视了语义,就无法准确表达文档的内容,同时也会影响计算特征词权值的精确度。之前的大多工作是计算独立的字或词的权重值,以选出特征词,很少涉及词汇语义部分的研究,容易忽视多义词和同义词现象。本文针对这一问题,先对词语进行语义信息的分析,然后将有语义关联的归为一组,进而分析信息熵,改进信息增益的公式,提出一种新的基于语义关联和信息增益的TFIDF特征选择算法。实验结果表明,改进
4、后的特征选择算法,在文本分类的查准率和召回率两方面均有不同程度的提高。,在文本分类领域中,最常用的是Salton在1975年提出的向量空间模型(VSM)。 VSM 将文本di看做向量空间中的一个n 维向量(t1,w(t1), t2,w(t2), t3,w(t3), tn,w(tn)),则t1, t2, t3, tn是该文本的特征词,w(ti),i1,2,3,n 是该文本对应的第i 个特征词的权重值。对文本文档进行分类主要依据文档的内容,而特征词的权重值便是刻画词语表达文档内容的重要指标。权重值的计算按其值类型通常分为以下两种 : )布尔型,即将所有训练文档的词语作为全集,当一个词语ti 出现在
5、文档中时,其权值设为,否则设为; )实数型,将文档的词语通过权重计算公式求出其权重值。,1.1 TFIDF 特征选择,显然,传统的TFIDF特征选择方法中,某个词语的权重值与该词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足,即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个词语均匀分布于各个类别中,那么对分类的贡献是微乎其微的,不能很好地区分类别。相应地,它的权重值应该比较小,但是按照传统TFIDF 算法得出的权重值却比较大。上述两个明显的缺点主要是因
6、为TFIDF 将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。针对这个问题,文献对传统TFIDF 方法进行了改进,引入了信息熵与信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文本内容表达的完整性,对文本分类有一定的影响。本文在基于语义关联的前提下计算信息熵,对权重值的计算方法进行改进。,熵是德国物理学家克劳修斯于1850 年提出的,表示一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。1948年,Shannon 把熵应用于信息处理,提出了信息熵的
7、概念。信息熵在随机事件发生之前,是结果不确定性的量度;在随机事件发生之后,它是人们从该事件中所得到信息的量度(信息量)。 设随机事件X 在获得信息y 之前结果的不确定性为 H(X),得到信息y 之后为H(X y),那么包含在消息y 中的关于事件X 的信息量为:G(X,y) H(X) H(X y) ()条件熵E(X y) H(Xy)是观测信息y 后信息空间X 的不确定程度。信息增益是信息熵的差,表示为:(X,y) H(X) H(X y) (),1.2 基于信息熵的特征选择,由公式得出的不确定程度减少量就是信息增益,即表示词语 对分类的影响。倘若简单地将信息增益作为一个乘数因子加入TFIDF中,修
8、改TFIDF算法中的权重公式为tf*idf*IG,并不能解决传统TFIDF的不足,所以在tf*idf*IG公式的基础上,将信息增益公式进行变形并引入到文档集合的类别间,将文档类别看做信息源,由训练数据集合的类别信息熵和文档类别中词语的条件熵之间信息量的增益关系共同决定该词语在文本分类中所提供的信息量,即建立起信息熵和词语权重值之间的关系。则权重值的计算公式为:,对式(3)研究得出,可以解决传统TFIDF中存在的不足,即当词语t 在类别中分布不均匀时,在某个类别中大量出现而其他类别中分布较少,理论上这个词带有很大的类别信息,由改进后的公式也恰恰算出它的权重值较高。另一种情况是某个词语虽然在整个文
9、档集合中数量很少,但均匀分布于各个类别间,则其对区分类别的影响比较小,理论上它的权重值相应地比较低,由式(3)算出的权重也确实比较低。,式(3)虽然弥补了词语在类别间分布上的不足,但针对类别内部,式(3)却未考虑词与词之间的语义关联。当一个词语在类别内部经常重复出现,但与这个词有语义关系的词语却非常稀少,那么这个词与文档所描述的内容关联不大,不能有效地用来分类,应该赋予小的权重值,但其出现次数多,TF值较大,则算出的权重值反而偏大。同时另外一些词,虽然单个出现的次数并不多,但它们相互之间关系非常密切,几乎同时出现与共存,它们在文档中的同时出现对文档内容的描述有着重要影响。常见的在文档中存在这样
10、三类词:字面不同但表示的含义相同,一词多义,以及上下文之间隐含的语义关系。这种现象产生的原因便是词汇层面(代表意思的词)和概念层面(意思本身)的差别,在文档中这些词的这种关系体现为语义关联,这样会导致特征词提取的不准确。解决办法是可以通过计算语义相似度将这些存在语义关联的词归为一组,这样便利用语义特征将这些词联系起来。将它们划归为一组后,再一同计算信息增益值,最终对文档分类提供的信息量就会变大。,2基于语义关联的改进特征选择方法,结合语义关联,本文提出对文本文档中类别内部的词语先进行分词,进而合并有语义关联的词语,将这些词划归一组。在tf*idf*IGc 中,计算IGc中的条件熵部分时,不以单
11、个词为出发点,而考虑某类别内部出现的从属于同一组的词语,先计算这组词在某个类别中出现的概率和,然后计算这组词的条件熵,最后求信息增益。即 输入:用于训练的文档集D。 输出:融合语义的KNN分类器,综上,归组完毕后需要修改条件熵E(C/ti)为:其中:C为文档集合,m为文档类别的个数,n 为词语ti所在的分组中词语的总个数,p(Cjti)表示词语ti 在类别Cj 中出现的概率。则信息增益公式修改为:最终的权重公式为:,利用本文改进后的条件熵及信息增益公式完成步骤3的计算。改进后的权重公式在保证很好地反映词语在类别间的分布情况基础上,将类别内部词语的语义关联加入公式中,对文档分类提供更全面的信息量
12、,解决了传统TFIDF算法的不足,修正了权重值的计算公式,继而便可进行特征提取,完成文本分类的验证实验。实验流程如图1所示。,图1 文本分类流程,3 实验分析,其中:每个类别为50个样本,平均查准率为90.57%,平均召回率为89.60%。,其中:每个类别为50个样本,平均查准率为93.59%,平均召回率为93.60%。,对实验结果分析得出,使用改进后的权重公式,查准率和召回率均有不同程度提高,在平均查准率和平均召回率两个指标中提高体现得更明显。实验表明在类别内部词语之间的语义关联对权重值有不可忽视的影响,将这个因素引入公式中对最终的分类效果有明显的提高。为了进一步验证考虑语义关联后,文本的分类效果会有显著的提高,以计算机和艺术类别的文本为例设计如下实验。选用上述实验测试集中的计算机类文档50篇,艺术类文档50篇,继续采用中科院的ICTCLAS系统( http:/ictclas.org/ )对所有文本进行分词,用C+语言实现文本分类。,由表3中数据得知,计算机类的查准率在进行强语义关联处理后查准率提高了9.32%,召回率提高了8%;艺术类的查准率提高了8.44% ,召回率提高了10%。由此可见,在强语义关联下,本文的方法优势很明显。中文信息中有大量语义关联的词汇,所以本文的方法有较大的应用价值,对文本分类的效果的提高有显著帮助。,The end ,thank you!,