1、基于概率统计的bayes分类器,一种经典分类器,第七章,贝叶斯的贡献,1763年,贝叶斯首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作机会的学说概论发表于1758年,贝叶斯所采用的许多术语被沿用至今。他对统计推理的主要贡献是使用了“逆概率“这个概念,并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理,这一定理可用一个数学公式来表达,这个公式就是著名的贝叶斯公式。,贝叶斯决策理论,Bayes分类器基本概念 一、两类问题 例如:细胞识别问题 1正常细胞,2异常细胞某地区,经大量统计获先验概率P(1),P(2
2、)。若取该地区某人细胞x属何种细胞 ,只能由 先验概率决定。,对x再观察:有细胞光密度特征 ,有类条件概率密度: P(x/ ) =1,2,。如图所示利用贝叶斯公式 : 通过 对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别 。,贝叶斯决策理论,通过 对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别 。,设N个样本分为两类1,2。每个样本抽出n个特征,x =(x1, x2, x3, xn)T,1、判别函数:若已知先验概率P(1),P(2),类条件概率密度P(x/ 1), P(x/ 2)。 则可得贝叶斯判别函数四种形式 :,2、决
3、策规则:,3、决策面方程:x为一维时,决策面为一点,x为二维时决策面为曲线,x为三维时,决策面为曲面,x大于三维时决策面为超曲面。 例:某地区细胞识别; P(1)=0.9, P(2)=0.1 未知细胞x,先从类条件概率密度分布曲线上查到:解:该细胞属于正常细胞还是异常细胞,先计算后验概率:,P(x/ 1)=0.2, P(x/ 2)=0.4,4、分类器设计:,判别计算,特征向量,决策,1.判别函数:M类有M个判别函数g1(x), g2(x), gm(x)。每个判别函数有上面的四种形式。2.决策规则:,另一种形式:,二、多类情况:=(1,2,m),x=(x1,x2,xn),二、多类情况:=(1,2
4、,m),x=(x1,x2,xn),3、决策面方程:4、分类器设计:,特征向量,判别计算,最大值选择器,决策,正态分布决策理论一、正态分布判别函数1、为什么采用正态分布:a、正态分布在物理上是合理的、广泛的。b、正态分布数学上简单,N(, ) 只有均值和方差两个参数。2、单变量正态分布:,3、(多变量)多维正态分布(1)函数形式:,判别函数 类条件概率密度用正态来表示:,例、有训练集资料矩阵如下表所示,现已知,N=9、N1=5、N2=4、n=2、M=2,试问,X=(0,0)T应属于哪一类?解:假定二类协方差 矩阵不等(12) 则均值:,关于分类器的错误率分析 1、一般错误率分析:,由此:错误率为
5、为图中两个划线部分之和。BAYES公式表明每个样本所属类别都使 最大,实际上使X错判的可能性达到最小。,最小风险Bayes分类器 假定要判断某人是正常(1)还是肺病患者(2),于是在判断中可能出现以下情况: 第一类,判对(正常正常) 11 ; 第二类,判错(正常肺病) 21 ; 第三类,判对(肺病肺病) 22; 第四类,判错(肺病正常) 12 。 在判断时,除了能做出“是” i类或“不是” i类的动作以外,还可以做出“拒识”的动作。为了更好地研究最小风险分类器,我们先说明几个概念:,行动i:表示把模式x判决为i类的一次动作。损耗函数ii=(i/i)表示模式X本来属于i类而错判为i所受损失。因为
6、这是正确判决,故损失最小。损耗函数ij=(i/j)表示模式X本来属于j类错判为i所受损失。因为这是错误判决,故损失最大。风险R(期望损失):对未知x采取一个判决行动(x)所付出的代价(损耗),条件风险只反映对某x取值的决策行动i所带来的风险。 期望风险则反映在整个特征空间不同的x取值的决策行动所带来的平均风险。,最小风险Bayes决策规则:,在整个特征空间中定义期望风险:,条件风险(也叫条件期望损失):,二类问题: 把x归于1时风险:把x归于2时风险:,Bayes分类的算法(假定各类样本服从正态分布) 1.输入类数M;特征数n,待分样本数m. 2.输入训练样本数N和训练集资料矩阵X(Nn)。并计算有关参数。 3.计算矩阵y中各类的后验概率。 4.若按最小错误率原则分类,则可根据 3 的结果判定y中各类样本的类别。 5.若按最小风险原则分类,则输入各值,并计算y中各样本属于各类时的风险并判定各样本类别。,