1、朴素贝叶斯分类,第九章,1. 定义,A,B,AB,条件概率,若 是全集,A、B是其中的事件(子集),P表示事件发生的概率,则,为事件B发生后A发生的概率。,乘法定理,注:当P(AB)不容易直接求得时,可考虑利用P(A)与P(B|A)的乘积或P(B)与P(A|B)的乘积间接求得。,乘法定理的推广,1. 集合(样本空间)的划分,二、全概率公式,2. 全概率公式,全概率公式,图示,证明,化整为零 各个击破,说明 全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.,例1 有一批同一型号的产品,已知其中由一厂生产的占 30%
2、 , 二厂生产的占 50% , 三厂生产的占 20%, 又知这三个厂的产品次品率分别为2% , 1%, 1%,问从这批产品中任取一件是次品的概率是多少,设事件 A 为“任取一件为次品”,解,由全概率公式得,贝叶斯公式,Bayes公式的意义,假设导致事件A发生的“原因”有Bi (i=1,2,n) 个。它们互不相容。 现已知事件A确已经发生了,若要估计它是由“原因”Bi所导致的概率,则可用Bayes公式求出. 即可从结果分析原因.,证明,乘法定理:,例2 贝叶斯公式的应用,解,(1) 由全概率公式得,(2) 由贝叶斯公式得,由以往的数据分析得到的概率, 叫做先验概率.,而在得到信息之后再重新加以修
3、正的概率 叫做后验概率.,先验概率与后验概率,贝叶斯分类,贝叶斯分类器是一个统计分类器。它们能够预测类别所属的概率,如:一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理而构造出来的。 对分类方法进行比较的有关研究结果表明:简单贝叶斯分类器(称为基本贝叶斯分类器)在分类性能上与决策树和神经网络都是可比的。 在处理大规模数据库时,贝叶斯分类器已表现出较高的分类准确性和运算性能。,20,贝叶斯分类,定义:设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我们希望确定P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(H|
4、X)的简单有效的方法: P(H)是先验概率,或称H的先验概率。P(X|H)代表假设H成立的情况下,观察到X的概率。 P(H| X )是后验概率,或称条件X下H的后验概率。,21,贝叶斯分类,先验概率泛指一类事物发生的概率,通常根据历史资料或主观判断,未经实验证实所确定的概率。 而后验概率涉及的是某个特定条件下一个具体的事物发生的概率,22,贝叶斯分类,例如:P(x1)=0.9: x1-为正常细胞的概率0.9(先验概率) P(x2)=0.1: x2-为异常细胞的概率0.1(先验概率) 对某个具体的对象y,P(x1|y):表示y的细胞正常的概率是0.82(后验概率) P(x2|y):表示y的细胞异
5、常的概率是0.18(后验概率),朴素贝叶斯分类,朴素贝叶斯分类的工作过程如下: (1) 每个数据样本用一个n维特征向量X= x1,x2,xn表示,分别描述对n个属性A1,A2,An样本的n个度量。 (2) 假定有m个类C1,C2,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1im)当且仅当P(Ci|X) P(Cj|X),对任意的j=1,2,m,ji。这样,最大化P(Ci|X)。其P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理,24,朴素贝叶斯分类(续),(3)由于P(X)对于所
6、有类为常数,只需要P(X|Ci)*P(Ci)最大即可。 如果Ci类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=P(Cm),因此问题就转换为对P(X|Ci)的最大化(P(X|Ci)常被称为给定Ci时数据X的似然度,而使P(X|Ci)最大的假设Ci称为最大似然假设)。 否则,需要最大化P(X|Ci)*P(Ci)。注意,类的先验概率可以用P(Ci)=si/s计算,其中si是类Ci中的训练样本数,而s是训练样本总数。,25,朴素贝叶斯分类(续),(4)给定具有许多属性的数据集,计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。 给
7、定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样,联合概率分布,26,朴素贝叶斯分类(续),(5)对未知样本X分类,也就是对每个类Ci,计算P(X|Ci)*P(Ci)。 样本X被指派到类Ci,当且仅当P(Ci|X) P(Cj|X),1jm,ji,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。,“打网球”的决定,之前用ID3算法求解的一个例子,实例,统计结果,统计结果,对下面的情况做出决策:,统计结果,对下面的情况做出决策:,模型:,决策:,?,贝叶斯公式:,E为第二个表中的取值、分别计算D=yes/no的概率,统计结果,对下面的情况做出决策:,已经计算出:,同理可计算:,利用公式:,最后得到:,决策:,对下面的情况做出决策:,作业 (下周一交),前10个样本作为训练样本,后4个作为测试样本,用Bayes方法进行决策。,作业2,按毕业设计论文格式撰写Apriori算法的上机报告 下次上机课之后交,