1、第2章 贝叶斯决策理论 Chapter 2: Bayesian decision theory,2019/4/10,模式(样本)的表示方法,向量表示 : 假设一个样本有n个变量(特征)= (X1,X2,Xn)T 2. 矩阵表示: N个样本,n个变量(特征),2019/4/10,3. 几何表示一维表示 X1=0.5 X2=3 二维表示X1=(x1,x2)T=(1,2)TX2=(x1,x2)T=(2,1)T三维表示X1=(x1,x2, x3)T=(1,1,0)TX2=(x1,x2 , x3)T=(1,0,1)T,本章主要内容,2.1 基于最小错误率的贝叶斯决策,2.3 正态分布时的贝叶斯统计决策,
2、2.2 基于最小风险的贝叶斯决策,2.4 分类器的错误率问题,2.1 基于最小错误率的贝叶斯决策,2.1.1 预备知识,1、用向量来表示模式,1,2,3,4,5,转化成列向量,0,1,0,1,0,0,0,1,2,3,35,34,33,0,1,0,0,1,1,“1”,模式: 一些供比对用的、“标准”的样本。,特征提取,35,模式“1”的图片,2、高维积分,已知模式(样本):,一维积分:,高维积分:,二重积分:,若,推广,条件概率密度,若有两个随机变量X和Y,它们的联合概率密度为 ,,变量X和Y各自的边缘概率密度为 和 ,则在条件,Y=y下,X的条件概率密度为,3、条件概率,定义:,即:,4、全概
3、率公式,定义:设事件 是样本空间 的一个划分,B是任意一事件,则,现在进行一次试验,如果 B 确定发生了,那么这一重要的补充信息可以使我们对事件 的概率重新估计, 则:在已知 B 发生的条件下,求出 的概率 ,这个概率称为后验概率。,5、贝叶斯公式(利用了条件概率和全概率公式),贝叶斯公式的另一种形式:,由贝叶斯公式衍生出贝叶斯决策、贝叶斯估计、贝叶斯学习等诸多理论体系,进而形成一个贝叶斯学派;,贝叶斯公式:,(1763年提出),贝叶斯公式由于其权威性、一致性和典雅性而被列入最优美的数学公式之一 ;,贝叶斯公式的两个创新点:,(1)用概率表示所有形式的不确定性;,(2),例如天气预报时,“今天
4、下雨的概率是85%”比直接预测“今天下雨”要更科学 ;,引入了“先验”与“后验”的概念;,先验概率:预先已知的或者可以估计的模式识别系统位于某种类型的概率。根据大量统计确定某类事物出现的比例,如我国理工科大学男女生比例大约为8:2,则在这类学校一个学生是男生的先验概率为0.8,而为女生的概率是0.2,这两类概率是互相制约的,因为这两个概率之和应满足总和为1的约束。 P(男生) 后验概率:一个具体事物属于某种类别的概率.例如一个学生用特征向量X表示,它是男性或女性的概率表示成P(男生|X)和P(女生|X)这就是后验概率。由于一个学生只可能为两个性别之一,因此有P(男生|X)+P(女生|X)=1的
5、约束,这一点是与类分布密度函数不同的。 后验概率与先验概率也不同,后验概率涉及一个具体事物,而先验概率是泛指一类事物,因此 P(男生|X)和P(男生)是两个不同的概念。,先验与后验,2.1.1 预备知识(续),贝叶斯公式:,例:利用贝叶斯公式求 的最大值:,先验,后验,先验概率:是指根据历史资料或主观判断所确定的事件发生的概率,该类概率没有经过实验证实,属检验前的概率。,后验概率:进行实验后,事件发生的概率。,贝叶斯公式在推理中融入了先验,即融入了对事物既有的一些认识:,2.1.1 预备知识(续),6、分类错误率,分类错误率 = 被错分的样本数 / 样本总数,分类方案一,分类方案二,在分类中,
6、希望分类错误率尽可能地小。,2.1.2 最小错误率贝叶斯决策的前提,(1)要决策分类的类别数是一定的;,前提:,(2)每一类出现的“先验概率”已知;,类,类,即,已知,(3)每一类的“类条件概率密度”已知;,即,已知,待解决的分类问题:,与,类,类,待解决的分类问题:,2.1.3 最小错误率贝叶斯决策规则,决策规则(样本只有两类时):,如果,如果,则,则,先验概率已知,类条件概率密度已知,可能属于 类也可能属于 类。,2.1.4 最小错误率贝叶斯决策规则应用实例,例 细胞识别,假设在某个局部地区细胞识别中, 正常( )和异常( )两类的先验概率分别为正常状态: P ( ) =0.9;异常状态:
7、 P ( ) =0.1. 现有一待识别的细胞,其观察值为 ,从类条件概率密度分布曲线上查得P(x | )=0.2, P(x | )=0.4. 试对该细胞x进行分类。 解:利用贝叶斯公式,分别计算出 及 的后验概率。P( | x)=P( |x)=1- P( |x)=0.182,类,类,2.1.4 最小错误率贝叶斯决策规则应用实例(续),类条件概率密度(已知),后验概率密度(待求),类,类,根据上图决策,2.1.4 最小错误率贝叶斯决策规则应用实例(续),为什么类条件概率密度是已知的,“类条件概率密度”是指系统位于某种类型条件下,模式样本的概率密度函数。一般而言,同一类事物的某个属性都有一定的变化
8、范围,在这个变化范围内的分布密度可用一种函数形式表示。,类,类,例如对于细胞识别而言,假设 是血红素浓度,则 表示正常血细胞的血红素浓度的分布情况。该分布可以事先测定,因此是已知的。,正常血细胞,异常血细胞,2.1.4 最小错误率贝叶斯决策规则应用实例(续),为什么先验概率是已知的,例如在某个局部地区(比如一个县)细胞识别中,要根据血红素浓度的测量值 判定其为正常血细胞或者是异常血细胞(例如白血病血细胞)。,类,类,正常血细胞,异常血细胞,该县正常人的比例;,该县白血病患者的比例;,上述比例关系可根据往年病历资料统计大致得到,因此可以看作是已知的。,上述比例关系尽管可能是近似的,但对决策准确程
9、度的影响并不是直接的,这也是贝叶斯决策的一个优点。,2.1.5 决策规则使错误率最小的理论证明,前面给出了最小错误率贝叶斯决策规则,但尚未证明按这种决策规则进行分类确实能使分类错误概率最小。下面以一维情况完成证明,其结果不难推广到多维。,1、平均错误率:,(是 的期望) 见(26),的概率密度,3、对 进行分类(决策)时的错误 见(27)式,2、决策规则(两类时):,如果,如果,则,则,(2-6),2.1.5 决策规则确实使错误率最小的理论证明(续),决策错误率 在每个x值处都取小者,因而平均错误率P(e)也必然达到最小。,2.1.6 最小错误率贝叶斯决策规则向多类的推广,决策规则(样本只有两
10、类时):,如果,如果,则,则,决策规则(样本有多类时):,类,类,类,类,类,如果,对于一切 成立,,则,2.2 基于最小风险的贝叶斯决策,2.2.1 为什么要引入基于风险的决策,基于最小错误率的贝叶斯决策,如果,如果,则,则,误判为:,误判为:,错误率:,错误率:,基于最小错误率的贝叶斯决策只关注错误率,并不关注因误判而带来的风险。但在实际应用中考虑风险是很重要的。 “风险”的适用范围比错误率更广泛,它引入了“损失”的概念。即考虑了因误判而带来的损失。,例:细胞识别,类,类,正常血细胞,异常血细胞,把正常血细胞误判为异常血细胞会给人带来不必要的痛苦;但若将异常血细胞误判为正常血细胞,则会使病
11、人因失去及早治疗的机会而遭受极大的损失。,2.2.2 几个概念(6个)设观察x是d维随机向量,其中 为一维随机变量。 1、状态空间: (c个自然状态,c 类组成) 2、决策空间: (a个决策)注意:a=c 或者 a=c+1(拒绝),本来,误判为:,误判为:,错误率:,错误率:,本来,造成的损失:,造成的损失:,把模式 判决为 类的一次决策;,模式 属于 类,现却将之判决为 类而带来的损失;,3、损失函数: (真实状态为 ,决策为 ),把模式 判决为 类的一次决策;,模式 属于 类,现却将之判决为 类而带来的损失;,状态空间:,决策空间:,一般决策表,4、一般决策表(由概念1、2、3得到),5、
12、条件风险(条件期望损失):,条件风险:,模式 属于 类,现却将之判决为 类而带来的损失;,模式 属于 类的概率(可能性);,例:计算条件风险,(正常类),(异常类),(正常),(异常),已知,所以,这意味着: 把异常类血细胞判别为正常类细胞所冒风险太大,所以宁肯将之判别为异常类血细胞。,(2-15),“风险”的适用范围比错误率更广泛,它引入了“损失”的概念。即考虑了因误判而带来的损失。,注意: 期望风险反映对所有x的取值采取相应决策 所带来的平均风险。,6、期望风险R:,注意:条件风险反映对某一x的取值采取相应决策 所带来的平均风险。,5、条件风险:条件期望损失(续),2.2.3 基于最小风险
13、的贝叶斯决策规则与决策步骤,2、决策步骤:,1、决策规则:,(根据贝叶斯公式计算),(计算条件风险),(决策),在实践中如何给出决策表:,2.2.3 基于最小风险的贝叶斯决策规则与决策步骤(续),(正常类),(异常类),(正常),(异常),在实践中要列出合适的决策表很不容易,往往要根据所研究的具体问题,分析错误决策造成损失的严重程度,与有关专家共同商讨来确定。,(教材P15),(即需要具体问题具体分析),2.2.4 基于最小风险的贝叶斯决策应用实例,例:细胞识别,假设在某个局部地区细胞识别中, 正常( )和异常( )两类的先验概率分别为正常状态: P ( ) =0.9;异常状态: P ( )
14、=0.1. 现有一待识别的细胞,其观察值为 ,从类条件概率密度分布曲线上查得P(x | )=0.2, P(x | )=0.4. 且因误判而带来的风险如下页表所表示,试对该细胞x进行分类。 解: (1)利用贝叶斯公式,分别计算出 及 的后验概率。P( | x)=P( |x)=1- P( |x)=0.182,类,类,若贝叶斯决策,2.2.4 基于最小风险的贝叶斯决策应用实例(续),(正常类),(异常类),(正常),(异常),(2)计算条件风险,(3)基于最小风险进行决策,(将 判决为第 类的风险),(将 判决为第 类的风险),模式 属于 类的概率(可能性);,所以,两类决策结果正好相反,这是因为影
15、响决策结果的因素又多了一个“损失”。由于两类错误决策所造成的损失相差很悬殊,因此“损失”在这里起了主导作用。,2.2.5 最小错误率与最小风险贝叶斯决策的联系,(正常类),(异常类),(正常),(异常),若采用0-1损失函数:,例:两类样本的分类,根据条件风险公式:,则两类决策的风险为,因此两种决策规则等价 (理论推导见教材P16),(将 判决为第 类的风险),(将 判决为第 类的错误率)见下页复习,复习:2.1.5 决策规则使错误率最小的理论证明,1、平均错误率:,(是 的期望) 见(26),的概率密度,3、对 进行分类(决策)时的错误 见(27)式,2、决策规则(两类时):,如果,如果,则
16、,则,(2-6),条件风险(条件期望损失),注意:在采用0-1损失函数时,,最小风险贝叶斯决策就是使左边最小,结论:最小错误率贝叶斯决策就是在0-1损失函数条件下的 最小风险贝叶斯决策,也就是前者是后者的特例。,2.3 正态分布时的贝叶斯统计决策,2.3.1 预备知识,(1)一元正态分布(单变量),正态分布的样本主要集中分布在其均值附近,其分散程度可用标准差 来衡量,标准差愈大分散程度也越大。从正态分布的总体中抽取样本,约有95%的样本都落在区间 内。,2.3.1 预备知识(续),(2)多元正态分布,左图的投影,多元正态分布,协方差矩阵:,均值向量:,从正态分布总体中抽取的样本大部分落在由 和
17、 所确定的一个区域中,区域中心由均值决定,区域形状由协方差矩阵决定。,2.3.1 预备知识(续),(3)多元正态分布的协方差矩阵,2.3.1 预备知识(续),(3)多元正态分布的协方差矩阵(续),区域中心由均值决定,区域形状由协方差矩阵决定;且主轴方向是协方差矩阵的特征向量方向;,多元正态分布的性质: 1、多元正态分布由均值 和协方差矩阵 完全确定。 2、从正态分布总体中抽取的样本大部分落在由 和所确定的一个区域中,区域中心由均值决定,区域形状由协方差矩阵决定; 3、从多元正态概率密度函数式可以看出,指数项为常数时,密度值不变(等密度);上式的解是一个超椭球面,且主轴方向是协方差矩阵的特征向量
18、方向;主轴的长度与相应的协方差矩阵的本征值成正比。,2.3.2 贝叶斯统计决策的决策面与判别函数,例如:最小错误率贝叶斯决策规则(两类情形),如果,如果,则,则,类,类,根据决策规则只能确定样本 属于哪一类,而现在欲求决策面(分类面)。,若 位于决策面上,应该有,决策面方程:,判别函数:,类,类,决策面:如果按某种决策规则将空间分成若干个决策域,则将决策域的边界称为决策面。,判别函数: 用于表达决策规则的函数。,例如:,决策面方程:,决策面在数学上的解析表示。,例如:,判别函数的判别功能示意图,2.3.2 贝叶斯统计决策的决策面与判别函数(续),判别函数与决策面方程(教材P20 P22:有关分
19、类器设计)1、多类情况: 决策规则: 判别函数定义(3种) 决策面方程:2、两类情况: 决策规则: 判别函数定义(3种) 决策面方程:,为一维时,决策面为一点;为二维时,决策面为曲线;为三维时,决策面为曲面;大于三维时,决策面为超曲面。,决策面方程的形态:,为二维时,为一维时,为三维时,2.3.2 贝叶斯统计决策的决策面与判别函数(续),2.3.3 正态概型下的最小错误率贝叶斯决策的判别函数,(1)“最小错误率贝叶斯决策”的判别函数与决策面的推广:,(两类情形),取对数前后,所求决策面不变,推广至多类,2.3.3 正态概型下最小错误率贝叶斯决策的判别函数(续),决策面:,判别函数:,(2)如果
20、类条件概率密度 服从正态分布:,则判别函数:,决策面:,(3)为什么假设类条件概率密度 服从正态分布,2.3.3 正态概型下最小错误率贝叶斯决策的判别函数(续),数学上简便性:除了一些极其简单与不甚实用的统计分布模型外,正态分布可说是数学上最简便的一种。正态分布有许多良好的性质,便于对统计决策方法进行分析。,物理上的合理性: 在许多实际应用场合,如果同一类样本在特征空间内的确较集中地分布在其类均值的附近,远离均值处分布较少,那么一般情况下以正态分布模型近似往往是比较合理的。人们也往往因数学分析复杂程度考虑而不得不采用这种模型,当然使用时应注意结果是否合理或关注其可接受的程度。,2.3.4 正态
21、概型下最小错误率贝叶斯决策的讨论,判别函数:,决策面:,以上决策面表达式很复杂,因此讨论以下两种特殊情形;,类条件概率密度:,(1),(2),2.3.4 正态概型下最小错误率贝叶斯决策的讨论(续),第一种情形:,判别函数:,决策面:,判别函数:,决策面:,进一步简化:忽略与i无关的项,2.3.4 正态概型下最小错误率贝叶斯决策的讨论(续),(1)若,判别函数:,决策面:,决策面:,最小错误率贝叶斯决策:对x进行分类,只需要计算x到各类均值的欧式距离的平方 , 然后把x归于最小欧式距离的类.,2.3.4 正态概型下最小错误率贝叶斯决策的讨论(续),(2)若,判别函数:,决策面:,展开并忽略与i无
22、关的项 (具体过程见教材P31),判别函数:,决策面:,其中,2.3.4 正态概型下最小错误率贝叶斯决策的讨论(续),决策面离开先验概率大的那个类的均值向量而朝先验概率较小的那类方向移动。 即先验概率大的一类要占据更大的决策空间,判别函数:,决策面:,其中,小结:,第二种情形:,2.3.4 正态概型下最小错误率贝叶斯决策的讨论(续),判别函数:,决策面:,(具体推导过程见教材P33),决策面:,其中,判别函数:,2.3.4 正态概型下最小错误率贝叶斯决策的讨论(续),决策面:,其中,判别函数:,则,决策面过 点,但不与 方向正交。,讨论:针对1,2二类情况,如图:,2.4 分类器的错误率问题,2.4.1 对分类错误率的直观认识,分类错误率 = 被错分的样本数 / 样本总数,分类方案一,分类方案二,在分类中,希望分类错误率尽可能地小。,以上是最简单的情形(全体样本已知),但在很多情形下(如只知部分样本,或只知样本的分布),分类错误率并不容易计算。,分类错误率是衡量分类性能好坏的标尺。,2.4.2 分类错误率的计算方式,在一些特殊情形下按理论公式计算,平均错误率:,(是 的期望),的概率密度,对 进行分类(决策)时的错误,决策规则(两类时):,如果,如果,则,则,(2-6),例:基于最小错误率的贝叶斯决策(前面讲过),