1、首页 资讯 精华 论坛 问答 博客 专栏 群组 更多 您还未登录 ! 登录 注册天地下最神奇的地方 博客 微博 相册 收藏 留言 关于我文本特征选择的关键算法总结算法 J#CC+C# 一、特征词选择与特征词权重关系开始学文本分类的时候经常要搞晕特征词选择和特征词权重 这两个东西,因为两者都要进行量化,很容易认为特征词选择就是计算权重,因此我认为有必要先搞清楚这两个概念。两者的区别 :特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。特征词的选择算法 有:文本特征选择的算法有基于文档频率 (Document Frequency) 、信息增益 (Infor
2、mation Gain, IG) 、开方拟和检验方法 (CHI 统计 ) 、互信息 (mutual Information) 、潜在语义分析 LSA、期望值交叉算熵、文本证据权、 term strength(TS) 、 GSS Coefficient 、 odds ratio 等;特征词的权值 (即所谓的文本表示)计算有:TF-IDF,TF 的改进,信息熵的引用等 1 。这个将在下篇进行分析一下。二、特征词权重选择方法分析以下分别分析一下特征词的选择算法,由于信息增益是很有效的特征选择方法,因此,将给出信息增益的 java 代码。1. 基于文档频率(DF)在文档频率方法中,使用特征词在一个类别
3、中出现的文档数来表示这个特征词与该类别的相关度。出现的文档数多的特征词被保留的可能性大。显然,文档频率方法实现最简单、算法复杂度最低,而且 DF 方法与其他几种方法的分类性能也差不多。计算公式:DF term :特征词 term 在某一类中的所有文档出现的次数。改进公式: 2缺点:待补充2. 互信息 (mutual Information)在互信息算法中,采用计算特征词 t 和类别 c 之间的相关度:其中, A 为在类别 c 中特征词 t 出现的文档数; B 为在除了类别 c 的其他类别中特征词 t 出现的文档数; C 为在类别 c 中特征词 t 未出现的文档数; N 为所有类别中的文档数的总
4、和。如果共有 m 个类别,那么每个特征词将得到 m 个相关度值,取这 m 个值的平均值作为每个特征词的权值,权值大的特征词被保留的可能性大。缺点:待补充 3. 信息增益 (Information Gain)信息增益 (IG) 是公认较好的特征选择方法,它刻画了一个词语在文本中出现与否对文本情感分类的影响,即一个词语在文本中出现前后的信息嫡之差。某个词语的信息增益值越大,说明它对分类的贡献就越大。信息增益的计算见公式:P(Ci) ,表示类别 Ci 出现的概率,其实只要用 1 除以类别总数就得到了(这是说你平等的看待每个类别而忽略它们的大小时这样算,如果考虑了大小就要把大小的影响加进去) 。P(t
5、) ,就是特征 t 出现的概率,只要用出现过 t 的文档数除以总文档数就可以了P(Ci|t) 表示出现 t 的时候,类别 Ci 出现的概率,只要用出现了 T 并且属于类别 Ci 的文档数除以出现了 T 的文档数就可以了 3Java 代码 /* * param j * return double * */ private double getFirstPart(int j) double sum = 0; for (int i = 0; i dylinshi126nimuqin文章分类 全部博客 (23) Design Pattern(设计模式) (3) 数据挖掘 (1)社区版块 我的资讯 (0
6、) 我的论坛 (2) 我的问答 (0)存档分类 2011-04 (1) 2011-03 (4) 2011-02 (1) 更多存档.最新评论 futrueboy: 似乎有点不清楚,请大家原谅Command Pattern(命令模式) futrueboy: 有什么问题,大家可以直说,欢迎发言!Iterator Pattern(迭代模式) zhao3546: 这样做是可以的。 我试验过。java HttpURLConnection 登录网站 jessdy: 随着 WEB 游戏越来越多,研究这种 WEB 外挂的人也越来越多 or .java HttpURLConnection 登录网站 dd350356750: 呵呵 。确实是个好东西。没试过不知道行不行。先用了。之前也 .java HttpURLConnection 登录网站声明:ITeye 文章版权属于作者,受法律保护。没有作者书面许可不得转载。若作者同意转载,必须以超链接形式标明文章原始出处和作者。 2003-2014 IT. All rights reserved. 京 ICP 证110151号 京公网安备110105010620