1、第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM引言最近在面试中,除了基础 4. unsigned int i,j; 5. bool done_flag = false;/哨兵值 6. for(j = 1; j wind 增益的 0.048。说白了,就是在星期六上午是否适合打网球的问题诀策中,采取humidity 较 wind 作为分类属性更佳,决策树由此而来。cpp view plaincopyprint?1. /计算信息增益,DFS 构建决策树 2. /current_node 为当前的节点 3. /remain_state 为剩余待分类的样例 4. /remian_attribute
2、 为剩余还没有考虑的属性 5. /返回根结点指针 6. Node * BulidDecisionTreeDFS(Node * p, vector remain_state, vector remain_attribute) 7. /if(remain_state.size() 0) 8. /printv(remain_state); 9. / 10. if (p = NULL) 11. p = new Node(); 12. /先看搜索到树叶的情况 13. if (AllTheSameLabel(remain_state, yes) 14. p-attribute = yes; 15. ret
3、urn p; 16. 17. if (AllTheSameLabel(remain_state, no) 18. p-attribute = no; 19. return p; 20. 21. if(remain_attribute.size() = 0)/所有的属性均已经考虑完了 ,还没有分尽 22. string label = MostCommonLabel(remain_state); 23. p-attribute = label; 24. return p; 25. 26. 27. double max_gain = 0, temp_gain; 28. vector :iterat
4、or max_it; 29. vector :iterator it1; 30. for(it1 = remain_attribute.begin(); it1 max_gain) 33. max_gain = temp_gain; 34. max_it = it1; 35. 36. 37. /下面根据 max_it 指向的属性来划分当前样例,更新样例集和属性集 38. vector new_attribute; 39. vector new_state; 40. for(vector :iterator it2 = remain_attribute.begin(); it2 attribut
5、e = *max_it; 45. vector values = map_attribute_values*max_it; 46. int attribue_num = FindAttriNumByName(*max_it); 47. new_state.push_back(attribute_row); 48. for(vector :iterator it3 = values.begin(); it3 arrived_value = *it3; 56. if(new_state.size() = 0)/表示当前没有这个分支的样例,当前的 new_node 为叶子节点 57. new_nod
6、e-attribute = MostCommonLabel(remain_state); 58. 59. else 60. BulidDecisionTreeDFS(new_node, new_state, new_attribute); 61. /递归函数返回时即回溯时需要 1 将新结点加入父节点孩子容器 2 清除 new_state 容器 62. p-childs.push_back(new_node); 63. new_state.erase(new_state.begin()+1,new_state.end();/注意先清空 new_state 中的前一个取值的样例,准备遍历下一个取值
7、样例 64. 65. return p; 66. 1.2.3、ID3 算法决策树的形成OK,下图为 ID3 算法第一步后形成的部分决策树。这样综合起来看,就容易理解多了。1、overcast样例必为正,所以为叶子结点,总为 yes;2 、ID3 无回溯,局部最优,而非全局最优,还有另一种树后修剪决策树。下图是 ID3 算法第一步后形成的部分决策树:如上图,训练样例被排列到对应的分支结点。分支 Overcast 的所有样例都是正例,所以成为目标分类为 Yes 的叶结点。另两个结点将被进一步展开,方法是按照新的样例子集选取信息增益最高的属性。1.3、C4.5 算法1.3.1、ID3 算法的改进:C
8、4.5 算法C4.5,是机器学习算法中的另一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法,也是上文 1.2 节所介绍的 ID3 的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。既然说 C4.5 算法是 ID3 的改进算法,那么 C4.5 相比于 ID3 改进的地方有哪些呢?:1. 用信息增益率来选择属性。ID3 选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3 使用的是熵 (entropy,熵是一种不纯度度量准则),也就是熵的变化值,而
9、 C4.5 用的是信息增益率。对,区别就在于一个是信息增益,一个是信息增益率。2. 在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致 overfitting。3. 对非离散数据也能处理。4. 能够对不完整数据进行处理针对上述第一点,解释下:一般来说率就是用来取平衡用的,就像方差起的作用差不多,比如有两个跑步的人,一个起点是 10m/s 的人、其 10s 后为 20m/s;另一个人起速是 1m/s、其 1s 后为 2m/s。如果紧紧算差值那么两个差距就很大了,如果使用速度增加率(加速度,即都是为 1m/s2)来衡量,2 个人就是一样的加速度。因此,C4
10、.5 克服了 ID3 用信息增益选择属性时偏向选择取值多的属性的不足。C4.5 算法之信息增益率OK,既然上文中提到 C4.5 用的是信息增益率,那增益率的具体是如何定义的呢?:是的,在这里,C4.5 算法不再是通过信息增益来选择决策属性。一个可以选择的度量标准是增益比率gain ratio(Quinlan 1986)。增益比率度量是用前面的增益度量 Gain(S,A)和分裂信息度量SplitInformation(S,A)来共同定义的,如下所示:其中,分裂信息度量被定义为(分裂信息用来衡量属性分裂数据的广度和均匀) :其中 S1 到 Sc 是 c 个值的属性 A 分割 S 而形成的 c 个样
11、例子集。注意分裂信息实际上就是 S 关于属性 A 的各值的熵。这与我们前面对熵的使用不同,在那里我们只考虑 S 关于学习到的树要预测的目标属性的值的熵。请注意,分裂信息项阻碍选择值为均匀分布的属性。例如,考虑一个含有 n 个样例的集合被属性 A 彻底分割(译注:分成 n 组,即一个样例一组)。这时分裂信息的值为 log2n。相反,一个布尔属性 B 分割同样的 n 个实例,如果恰好平分两半,那么分裂信息是 1。如果属性 A 和 B 产生同样的信息增益,那么根据增益比率度量,明显 B 会得分更高。使用增益比率代替增益来选择属性产生的一个实际问题是,当某个 Si 接近 S(|Si|S|)时分母可能为
12、0 或非常小。如果某个属性对于 S 的所有样例有几乎同样的值,这时要么导致增益比率未定义,要么是增益比率非常大。为了避免选择这种属性,我们可以采用这样一些启发式规则,比如先计算每个属性的增益,然后仅对那些增益高过平均值的属性应用增益比率测试(Quinlan 1986)。除了信息增益,Lopez de Mantaras(1991)介绍了另一种直接针对上述问题而设计的度量,它是基于距离的(distance-based)。这个度量标准基于所定义的一个数据划分间的距离尺度。具体更多请参看:Tom M.Mitchhell 所著的机器学习之 3.7.3 节。1.3.2、C4.5 算法构造决策树的过程cpp
13、 view plaincopyprint?1. Function C4.5(R:包含连续属性的无类别属性集合,C:类别属性,S:训练集 ) 2. /*返回一棵决策树*/ 3. Begin 4. If S 为空,返回一个值为 Failure 的单个节点; 5. If S 是由相同类别属性值的记录组成, 6. 返回一个带有该值的单个节点; 7. If R 为空,则返回一个单节点,其值为在 S 的记录中找出的频率最高的类别属性值; 8. 注意未出现错误则意味着是不适合分类的记录 ; 9. For 所有的属性 R(Ri) Do 10. If 属性 Ri 为连续属性,则 11. Begin 12. 将
14、Ri 的最小值赋给 A1: 13. 将 Rm 的最大值赋给 Am;/*m 值手工设置*/ 14. For j From 2 To m-1 Do Aj=A1+j*(A1Am)/m; 15. 将 Ri 点的基于Aj的最大信息增益属性(Ri,S)赋给 A; 16. End; 17. 将 R 中属性之间具有最大信息增益的属性 (D,S)赋给 D; 18. 将属性 D 的值赋给dj/j=1,2.m; 19. 将分别由对应于 D 的值为 dj 的记录组成的 S 的子集赋给sj/j=1,2.m; 20. 返回一棵树,其根标记为 D;树枝标记为 d1,d2.dm; 21. 再分别构造以下树: 22. C4.5
15、(R-D,C,S1),C4.5(R-D,C,S2).C4.5(R-D,C,Sm); 23. End C4.5 1.3.3、C4.5 算法实现中的几个关键步骤在上文中,我们已经知道了决策树学习 C4.5 算法中 4 个重要概念的表达,如下:1.2.3.4.接下来,咱们写下代码实现,1、信息熵cpp view plaincopyprint?1. double C4_5:entropy(int *attrClassCount, int classNum, int allNum) 2. double iEntropy = 0.0; 3. for(int i = 0; i attriCount, dou
16、ble pEntropy) 2. int* attriNum = new intattriCount.size(); 3. int allNum = 0; 4. 5. for(int i = 0; i attrIndex, vector* sampleCount) 2. int bestIndex = 0; 3. double maxGainRatio = 0.0; 4. int classNum = (int)(decisionsattrIndex(int)attrIndex.size()-1).size();/number of class 5. 6. /computer the clas
17、s entropy 7. int* temp = new intclassNum; 8. int allNum = 0; 9. for(int i = 0; i maxGainRatio) 20. bestIndex = i; 21. maxGainRatio = gainR; 22. 23. 24. return bestIndex; 25. 4、还有一系列建树,打印树的步骤,此处略过。1.4、读者点评1. form Wind:决策树使用于特征取值离散的情况,连续的特征一般也要处理成离散的(而很多文章没有表达出决策树的关键特征 or 概念)。实际应用中,决策树 overfitting 比较的
18、严重,一般要做boosting。分类器的性能上不去,很主要的原因在于特征的鉴别性不足,而不是分类器的好坏,好的特征才有好的分类效果,分类器只是弱相关。2. 那如何提高 特征的鉴别性呢?一是设计特征时尽量引入 domain knowledge,二是对提取出来的特征做选择、变换和再学习,这一点是机器学习算法不管的部分(我说的这些不是针对决策树的,因此不能说是决策树的特点,只是一些机器学习算法在应用过程中的经验体会)。第二部分、贝叶斯分类说实话,友人刘未鹏有一篇讲的贝叶斯的文章:数学之美番外篇:平凡而又神奇的贝叶斯方法,已经把贝叶斯讲的很清晰透彻了,我再讲也是如李白看到崔颢在黄鹤楼上所提的:登黄鹤楼
19、昔人已乘黄鹤去,此地空余黄鹤楼;黄鹤一去不复返,白云千载空悠悠。后便大为折服,已无什兴致再提了(偶现在就是这感觉) ,然文章还得继续写。 So,本文第二部分之大部分基本整理自未鹏兄之手(做了部分改动 ),若有任何不妥之处,还望读者和未鹏兄海涵,谢谢。2.1、什么是贝叶斯分类据维基百科上的介绍,贝叶斯定理是关于随机事件 A 和 B 的条件概率和边缘概率的一则定理。如上所示,其中 P(A|B)是在 B 发生的情况下 A 发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称: P(A)是 A 的先验概率或边缘概率。之所以称为 “先验“是因為它不考虑任何 B 方面的因素。 P(A|B)是已知 B
20、发生后 A 的条件概率(直白来讲,就是先有 B 而后=才有 A) ,也由于得自 B 的取值而被称作 A 的后验概率。 P(B|A)是已知 A 发生后 B 的条件概率(直白来讲,就是先有 A 而后=才有 B) ,也由于得自 A 的取值而被称作 B 的后验概率。 P(B)是 B 的先验概率或边缘概率,也作标准化常量( normalized constant) 。按这些术语,Bayes 定理可表述为:后验概率 = (相似度*先验概率 )/标准化常量,也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例 P(B|A)/P(B)也有时被称作标准相似度(standardised likelihoo
21、d) ,Bayes 定理可表述为:后验概率 = 标准相似度 *先验概率。2.2 贝叶斯公式如何而来贝叶斯公式是怎么来的?下面再举 wikipedia 上的一个例子:一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大” ,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?一些认知科学的研究表明(决策与判断
22、以及 Rationality for Mortals第 12 章:小孩也可以解决贝叶斯问题),我们对形式化的贝叶斯问题不擅长,但对于以频率形式呈现的等价问题却很擅长。在这里,我们不妨把问题重新叙述成:你在校园里面随机游走,遇到了 N 个穿长裤的人(仍然假设你无法直接观察到他们的性别),问这 N 个人里面有多少个女生多少个男生。你说,这还不简单:算出学校里面有多少穿长裤的,然后在这些人里面再算出有多少女生,不就行了?我们来算一算:假设学校里面人的总数是 U 个。60% 的男生都穿长裤,于是我们得到了 U * P(Boy) * P(Pants|Boy) 个穿长裤的(男生)(其中 P(Boy) 是男
23、生的概率 = 60%,这里可以简单的理解为男生的比例;P(Pants|Boy) 是条件概率,即在 Boy 这个条件下穿长裤的概率是多大,这里是 100% ,因为所有男生都穿长裤)。40% 的女生里面又有一半(50%)是穿长裤的,于是我们又得到了 U * P(Girl) * P(Pants|Girl) 个穿长裤的(女生)。加起来一共是 U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl) 个穿长裤的,其中有 U * P(Girl) * P(Pants|Girl) 个女生。两者一比就是你要求的答案。下面我们把这个答案形式化一下:我们要求的是
24、 P(Girl|Pants) (穿长裤的人里面有多少女生),我们计算的结果是 U * P(Girl) * P(Pants|Girl) / U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl) 。容易发现这里校园内人的总数是无关的,两边同时消去 U,于是得到P(Girl|Pants) = P(Girl) * P(Pants|Girl) / P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)注意,如果把上式收缩起来,分母其实就是 P(Pants) ,分子其实就是 P(Pants, Girl) 。而
25、这个比例很自然地就读作:在穿长裤的人( P(Pants) )里面有多少(穿长裤)的女孩( P(Pants, Girl) )。上式中的 Pants 和 Boy/Girl 可以指代一切东西,So,其一般形式就是:P(B|A) = P(A|B) * P(B) / P(A|B) * P(B) + P(A|B) * P(B) 收缩起来就是:P(B|A) = P(AB) / P(A)其实这个就等于:P(B|A) * P(A) = P(AB)更进一步阐述,P(B|A)便是在条件 A 的情况下,B 出现的概率是多大。然看似这么平凡的贝叶斯公式,背后却隐含着非常深刻的原理。2.3、拼写纠正经典著作人工智能:现代
26、方法的作者之一 Peter Norvig 曾经写过一篇介绍如何写一个拼写检查/纠正器的文章,里面用到的就是贝叶斯方法,下面,将其核心思想简单描述下。首先,我们需要询问的是:“问题是什么? ”问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:P(我们猜测他想输入的单词 | 他实际输入的单词)这个概率。并找出那个使得这个概率最大的猜测单词。显然,我们的猜测未必是唯一的,就像前面举的那个自然语言的歧义性的例子一样;这里,比如用户输入: thew ,那么他到底是想输入 the ,还是想输入 thaw ?
27、到底哪个猜测可能性更大呢?幸运的是我们可以用贝叶斯公式来直接出它们各自的概率,我们不妨将我们的多个猜测记为 h1 h2 ( h 代表 hypothesis),它们都属于一个有限且离散的猜测空间 H (单词总共就那么多而已),将用户实际输入的单词记为 D ( D 代表 Data ,即观测数据),于是P(我们的猜测 1 | 他实际输入的单词 )可以抽象地记为:P(h1 | D)类似地,对于我们的猜测 2,则是 P(h2 | D)。不妨统一记为:P(h | D)运用一次贝叶斯公式,我们得到:P(h | D) = P(h) * P(D | h) / P(D)对于不同的具体猜测 h1 h2 h3 ,P(
28、D) 都是一样的,所以在比较 P(h1 | D) 和 P(h2 | D) 的时候我们可以忽略这个常数。即我们只需要知道:P(h | D) P(h) * P(D | h) (注:那个符号的意思是 “正比例于”,不是无穷大,注意符号右端是有一个小缺口的。)这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood )的乘积。具体到我们的那个 thew 例子上,含义就是,用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性(频繁程度)
29、大小(先验概率)和 想打 the 却打成 thew 的可能性大小(似然)的乘积。剩下的事情就很简单了,对于我们猜测为可能的每个单词计算一下 P(h) * P(D | h) 这个值,然后取最大的,得到的就是最靠谱的猜测。更多细节请参看未鹏兄之原文。2.4、贝叶斯的应用2.4.1、中文分词贝叶斯是机器学习的核心方法之一。比如中文分词领域就用到了贝叶斯。浪潮之巅的作者吴军在数学之美系列中就有一篇是介绍中文分词的。这里介绍一下核心的思想,不做赘述,详细请参考吴军的原文。分词问题的描述为:给定一个句子(字串),如:南京市长江大桥如何对这个句子进行分词(词串)才是最靠谱的。例如: 1. 南京市/长江大桥2
30、. 南京/市长/江大桥这两个分词,到底哪个更靠谱呢?我们用贝叶斯公式来形式化地描述这个问题,令 X 为字串(句子),Y 为词串(一种特定的分词假设)。我们就是需要寻找使得 P(Y|X) 最大的 Y ,使用一次贝叶斯可得:P(Y|X) P(Y)*P(X|Y)用自然语言来说就是 这种分词方式(词串)的可能性 乘以 这个词串生成我们的句子的可能性。我们进一步容易看到:可以近似地将 P(X|Y) 看作是恒等于 1 的,因为任意假想的一种分词方式之下生成我们的句子总是精准地生成的(只需把分词之间的分界符号扔掉即可)。于是,我们就变成了去最大化 P(Y) ,也就是寻找一种分词使得这个词串(句子)的概率最大
31、化。而如何计算一个词串:W1, W2, W3, W4 的可能性呢?我们知道,根据联合概率的公式展开:P(W1, W2, W3, W4 ) = P(W1) * P(W2|W1) * P(W3|W2, W1) * P(W4|W1,W2,W3) * 于是我们可以通过一系列的条件概率(右式)的乘积来求整个联合概率。然而不幸的是随着条件数目的增加(P(Wn|Wn-1,Wn-2,W1) 的条件有 n-1 个),数据稀疏问题也会越来越严重,即便语料库再大也无法统计出一个靠谱的 P(Wn|Wn-1,Wn-2,W1) 来。为了缓解这个问题,计算机科学家们一如既往地使用了“天真” 假设:我们假设句子中一个词的出现
32、概率只依赖于它前面的有限的 k 个词(k 一般不超过 3,如果只依赖于前面的一个词,就是 2 元语言模型(2-gram),同理有 3-gram 、 4-gram 等),这个就是所谓的“有限地平线”假设。虽然上面这个假设很傻很天真,但结果却表明它的结果往往是很好很强大的,后面要提到的朴素贝叶斯方法使用的假设跟这个精神上是完全一致的,我们会解释为什么像这样一个天真的假设能够得到强大的结果。目前我们只要知道,有了这个假设,刚才那个乘积就可以改写成: P(W1) * P(W2|W1) * P(W3|W2) * P(W4|W3) (假设每个词只依赖于它前面的一个词)。而统计 P(W2|W1) 就不再受到
33、数据稀疏问题的困扰了。对于我们上面提到的例子“南京市长江大桥” ,如果按照自左到右的贪婪方法分词的话,结果就成了“南京市长/江大桥”。但如果按照贝叶斯分词的话(假设使用 3-gram),由于“ 南京市长”和“江大桥”在语料库中一起出现的频率为 0 ,这个整句的概率便会被判定为 0 。 从而使得“ 南京市/长江大桥”这一分词方式胜出。2.4.2、贝叶斯图像识别,Analysis by Synthesis贝叶斯方法是一个非常 general 的推理框架。其核心理念可以描述成:Analysis by Synthesis (通过合成来分析)。06 年的认知科学新进展上有一篇 paper 就是讲用贝叶斯
34、推理来解释视觉识别的,一图胜千言,下图就是摘自这篇 paper :首先是视觉系统提取图形的边角特征,然后使用这些特征自底向上地激活高层的抽象概念(比如是 E 还是 F 还是等号),然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像。2.4.3、最大似然与最小二乘学过线性代数的大概都知道经典的最小二乘方法来做线性回归。问题描述是:给定平面上 N 个点,(这里不妨假设我们想用一条直线来拟合这些点回归可以看作是拟合的特例,即允许误差的拟合),找出一条最佳描述了这些点的直线。一个接踵而来的问题就是,我们如何定义最佳?我们设每个点的坐标为 (Xi, Yi) 。如果直线为 y = f(x
35、) 。那么 (Xi, Yi) 跟直线对这个点的“预测” :(Xi, f(Xi) 就相差了一个 Yi = |Yi f(Xi)| 。最小二乘就是说寻找直线使得 (Y1)2 + (Y2)2 + (即误差的平方和)最小,至于为什么是误差的平方和而不是误差的绝对值和,统计学上也没有什么好的解释。然而贝叶斯方法却能对此提供一个完美的解释。我们假设直线对于坐标 Xi 给出的预测 f(Xi) 是最靠谱的预测,所有纵坐标偏离 f(Xi) 的那些数据点都含有噪音,是噪音使得它们偏离了完美的一条直线,一个合理的假设就是偏离路线越远的概率越小,具体小多少,可以用一个正态分布曲线来模拟,这个分布曲线以直线对 Xi 给出
36、的预测 f(Xi) 为中心,实际纵坐标为 Yi 的点 (Xi, Yi) 发生的概率就正比于 EXP-(Yi)2。(EXP() 代表以常数 e 为底的多少次方)。现在我们回到问题的贝叶斯方面,我们要想最大化的后验概率是:P(h|D) P(h) * P(D|h)又见贝叶斯!这里 h 就是指一条特定的直线,D 就是指这 N 个数据点。我们需要寻找一条直线 h 使得 P(h) * P(D|h) 最大。很显然,P(h) 这个先验概率是均匀的,因为哪条直线也不比另一条更优越。所以我们只需要看 P(D|h) 这一项,这一项是指这条直线生成这些数据点的概率,刚才说过了,生成数据点 (Xi, Yi) 的概率为
37、EXP-(Yi)2 乘以一个常数。而 P(D|h) = P(d1|h) * P(d2|h) * 即假设各个数据点是独立生成的,所以可以把每个概率乘起来。于是生成 N 个数据点的概率为 EXP-(Y1)2 * EXP-(Y2)2 * EXP-(Y3)2 * = EXP-(Y1)2 + (Y2)2 + (Y3)2 + 最大化这个概率就是要最小化 (Y1)2 + (Y2)2 + (Y3)2 + 。 熟悉这个式子吗?除了以上所介绍的之外,贝叶斯还在词义消岐,语言模型的平滑方法中都有一定应用。下节,咱们再来简单看下朴素贝叶斯方法。2.5、朴素贝叶斯方法朴素贝叶斯方法是一个很特别的方法,所以值得介绍一下。
38、在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型( Naive Bayesian Model,NBC )。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC 模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为 NBC 模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给 NBC 模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC 模型的分类效率比不上决策
39、树模型。而在属性相关性较小时,NBC 模型的性能最为良好。接下来,我们用朴素贝叶斯在垃圾邮件过滤中的应用来举例说明。2.5.1、贝叶斯垃圾邮件过滤器问题是什么?问题是,给定一封邮件,判定它是否属于垃圾邮件。按照先例,我们还是用 D 来表示这封邮件,注意 D 由 N 个单词组成。我们用 h+ 来表示垃圾邮件,h- 表示正常邮件。问题可以形式化地描述为求:P(h+|D) = P(h+) * P(D|h+) / P(D)P(h-|D) = P(h-) * P(D|h-) / P(D)其中 P(h+) 和 P(h-) 这两个先验概率都是很容易求出来的,只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就
40、行了。然而 P(D|h+) 却不容易求,因为 D 里面含有 N 个单词 d1, d2, d3, ,所以P(D|h+) = P(d1,d2,dn|h+) 。我们又一次遇到了数据稀疏性,为什么这么说呢?P(d1,d2,dn|h+) 就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大!开玩笑,每封邮件都是不同的,世界上有无穷多封邮件。瞧,这就是数据稀疏性,因为可以肯定地说,你收集的训练数据库不管里面含了多少封邮件,也不可能找出一封跟目前这封一模一样的。结果呢?我们又该如何来计算 P(d1,d2,dn|h+) 呢?我们将 P(d1,d2,dn|h+) 扩展为: P(d1|h+)
41、* P(d2|d1, h+) * P(d3|d2,d1, h+) * 。熟悉这个式子吗?这里我们会使用一个更激进的假设,我们假设 di 与 di-1 是完全条件无关的,于是式子就简化为 P(d1|h+) * P(d2|h+) * P(d3|h+) * 。这个就是所谓的条件独立假设,也正是朴素贝叶斯方法的朴素之处。而计算 P(d1|h+) * P(d2|h+) * P(d3|h+) * 就太简单了,只要统计 di 这个单词在垃圾邮件中出现的频率即可。关于贝叶斯垃圾邮件过滤更多的内容可以参考这个条目,注意其中提到的其他资料。2.6、层级贝叶斯模型层级贝叶斯模型是现代贝叶斯方法的标志性建筑之一。前面
42、讲的贝叶斯,都是在同一个事物层次上的各个因素之间进行统计推理,然而层次贝叶斯模型在哲学上更深入了一层,将这些因素背后的因素(原因的原因,原因的原因,以此类推)囊括进来。一个教科书例子是:如果你手头有 N 枚硬币,它们是同一个工厂铸出来的,你把每一枚硬币掷出一个结果,然后基于这 N 个结果对这 N 个硬币的 (出现正面的比例)进行推理。如果根据最大似然,每个硬币的 不是 1 就是 0 (这个前面提到过的),然而我们又知道每个硬币的 p() 是有一个先验概率的,也许是一个 beta 分布。也就是说,每个硬币的实际投掷结果 Xi 服从以 为中心的正态分布,而 又服从另一个以 为中心的 beta 分布
43、。层层因果关系就体现出来了。进而 还可能依赖于因果链上更上层的因素,以此类推。2.7、基于 newsgroup 文档集的贝叶斯算法实现 2.7.1、newsgroup 文档集介绍与预处理Newsgroups 最早由 Lang 于 1995 收集并在Lang 1995中使用。它含有 20000 篇左右的 Usenet 文档,几乎平均分配 20 个不同的新闻组。除了其中 4.5%的文档属于两个或两个以上的新闻组以外,其余文档仅属于一个新闻组,因此它通常被作为单标注分类问题来处理。Newsgroups 已经成为文本分类聚类中常用的文档集。美国 MIT 大学 Jason Rennie 对 Newsgr
44、oups 作了必要的处理,使得每个文档只属于一个新闻组,形成 Newsgroups-18828。 (注:本 2.7 节内容主要援引自参考文献条目 8 的内容,有任何不妥之处,还望原作者及众读者海涵,谢谢)要做文本分类首先得完成文本的预处理,预处理的主要步骤如下:1. 英文词法分析,去除数字、连字符、标点符号、特殊 字符,所有大写字母转换成小写,可以用正则表达式:String res = line.split(“a-zA-Z“);2. 去停用词,过滤对分类无价值的词;3. 词根还原 stemming,基于 Porter 算法。java view plaincopyprint?1. private
45、 static String lineProcess(String line, ArrayList stopWordsArray) throws IOException 2. / TODO Auto-generated method stub 3. /step1 英文词法分析,去除数字、连字符、标点符号、特殊字符,所有大写字母转换成小写,可以考虑用正则表达式 4. String res = line.split(“a-zA-Z“); 5. /这里要小心,防止把有单词中间有数字和连字符的单词 截断了,但是截断也没事 6. 7. String resString = new String(); 8
46、. /step2 去停用词 9. /step3stemming,返回后一起做 10. for(int i = 0; i cateWordsProb key 为“ 类目_ 单词”, value 为该类目下该单词的出现次数,避免重复计算。贝叶斯算法实现类如下 NaiveBayesianClassifier.java(author:yangliu)java view plaincopyprint?1. package com.pku.yangliu; 2. import java.io.BufferedReader; 3. import java.io.File; 4. import java.io
47、.FileReader; 5. import java.io.FileWriter; 6. import java.io.IOException; 7. import java.math.BigDecimal; 8. import java.util.Iterator; 9. import java.util.Map; 10. import java.util.Set; 11. import java.util.SortedSet; 12. import java.util.TreeMap; 13. import java.util.TreeSet; 14. import java.util.
48、Vector; 15. 16. /*利用朴素贝叶斯算法对 newsgroup 文档集做分类,采用十组交叉测试取平均值 17. * 采用多项式模型,stanford 信息检索导论课件上面言多项式模型比伯努利模型准确度高 18. * 类条件概率 P(tk|c)=(类 c 下单词 tk 在各个文档中出现过的次数之和+1)/(类 c 下单词总数+|V|) 19. */ 20. public class NaiveBayesianClassifier 21. 22. /*用贝叶斯法对测试文档集分类 23. * param trainDir 训练文档集目录 24. * param testDir 测试文档集目录 25. * param classifyResultFileNew 分类结果文件