收藏 分享(赏)

2.3 正态分布时的统计决策.ppt

上传人:kpmy5893 文档编号:8749729 上传时间:2019-07-10 格式:PPT 页数:97 大小:1.64MB
下载 相关 举报
2.3 正态分布时的统计决策.ppt_第1页
第1页 / 共97页
2.3 正态分布时的统计决策.ppt_第2页
第2页 / 共97页
2.3 正态分布时的统计决策.ppt_第3页
第3页 / 共97页
2.3 正态分布时的统计决策.ppt_第4页
第4页 / 共97页
2.3 正态分布时的统计决策.ppt_第5页
第5页 / 共97页
点击查看更多>>
资源描述

1、2.3 正态分布时的统计决策,正态分布概率密度函数的定义及性质 多元正态概型下的最小错误率贝叶斯判别函数和决策面,单变量正态分布 单变量正态分布概率密度函数定义为,2.3.1正态分布概率密度函数的定义及性质,2.3.1正态分布概率密度函数的定义及性质,随机变量x的期望,2为x的方差,标准差,k=1 P(-kx +k)=0.68 k=2 P(-kx +k)=0.95 k=3 P(-kx +k)=0.99 p(x)N(,2),概率密度函数应满足下列关系式 p(x)0 (x),2.3.1正态分布概率密度函数的定义及性质, 多元正态分布,多元正态分布的概率密度函数,2.3.1正态分布概率密度函数的定义

2、及性质, 多元正态分布,2.3.1正态分布概率密度函数的定义及性质,协方差矩阵总是对称阵,协方差矩阵为,协方差的各分量为:,2.3.1正态分布概率密度函数的定义及性质,协方差矩阵总是非负定阵。 对于任意随机向量x,xTx是的二次型。如果对x0的一切x 有 xTx0 都成立,则称为非负定阵。 若xTx0,则为正定阵。 对于正定矩阵,各阶主子式非零(包括|0)。,2.3.1正态分布概率密度函数的定义及性质,多元正态分布的性质,参数和对分布的决定性 等密度点的轨迹为一超椭球面 不相关性等价于独立性 边缘分布和条件分布的正态性 线性变换的正态性 线性组合的正态性,2.3.1正态分布概率密度函数的定义及

3、性质,参数和对分布的决定性,多元正态分布被均值向量和协方差矩阵所完全确定。,均值向量由d个分量组成; 协方差矩阵由于其对称性故其独立元素有,p(x)N(,),多元正态分布概率密度函数常记为,2.3.1正态分布概率密度函数的定义及性质,等密度点的轨迹为一超椭球面,从正态分布总体中抽取的样本大部分落在由和所确定的一个区域里。从一个以均值为中心的云团内的二维高斯分布中取出的样本。椭圆显示了等概率密度的高斯分布轨迹。,2.3.1正态分布概率密度函数的定义及性质,等密度点的轨迹为一超椭球面,2.3.1正态分布概率密度函数的定义及性质,等密度点的轨迹为一超椭球面,2.3.1正态分布概率密度函数的定义及性质

4、,当指数项为常数时,密度p(x)值不变,因此等密度点应是此式的指数项为常数的点,即应满足,证明上式的解是一个超椭球面,且它的主轴方向由阵的特征向量所决定,主轴的长度与相应的协方差矩阵的本征值成正比。在数理统计中上式所表示的数量:,等密度点的轨迹为一超椭球面,2.3.1正态分布概率密度函数的定义及性质,为x到的Mahalanobis距离的平方。所以等密度点轨迹是x到的Mahalanobis距离为常数的超椭球面。这个超椭球体大小是样本对于均值向量的离散度度量。 可以证明对应于Mahalanobis距离为的超椭球体积是,其中Vd是d维单位超球体的体积。,等密度点的轨迹为一超椭球面,2.3.1正态分布

5、概率密度函数的定义及性质,对于给定的维数,样本离散度直接随 而变。,不相关性等价于独立性,不相关与独立的定义: 若 Exi xj= ExiExj 则定义随机变量xi和xj是不相关的。 若 p(xi,xj)= p(xi) p(xj) 则定义随机变量xi和xj是独立的。,2.3.1正态分布概率密度函数的定义及性质,一般情况下相关与独立的关系,独立性是比不相关性更强的条件,独立性要求 p(xi,xj)= p(xi) p(xj)对于xi和xj都成立。 不相关性是两个随机变量的积的期望等于两个随机变量的期望的积,它反映了xi与xj总体的性质。 若xi和xj相互独立,则它们之间一定不相关;反之则不一定成立

6、。,2.3.1正态分布概率密度函数的定义及性质,多元正态分布情况,对多元正态分布的任意两个分量xi和xj而言,若xi与xj互不相关,则它们之间一定独立。 在正态分布中不相关性等价于独立性。 就随机向量x=x1,x2,xnT进行证明。,2.3.1正态分布概率密度函数的定义及性质,证明:,根据xi与xj互不相关的定义,可求得:,i,j=1,2,d;ij,因此协方差矩阵就成为对角阵,2.3.1正态分布概率密度函数的定义及性质,因此,重要推论: 如果多元正态随机向量x=(x1,xd)T的协方差阵是对角阵,则x的分量是相互独立的正态分布随机变量。,2.3.1正态分布概率密度函数的定义及性质,边缘分布和条

7、件分布的正态性,多元正态分布的边缘分布和条件分布仍然是正态分布。 二元正态分布协方差矩阵及其逆矩阵-1为,2.3.1正态分布概率密度函数的定义及性质,根据边缘分布定义,2.3.1正态分布概率密度函数的定义及性质,其中由于,所以x1的边缘分布,就是说边缘分布p(x1)服从以均值为 方差为 的正态分布。,2.3.1正态分布概率密度函数的定义及性质,同理可以推出x2的边缘分布为,对于给定x1的条件下x2的分布,有定义 p(x2|x1) = p(x1,x2 ) / p(x1),2.3.1正态分布概率密度函数的定义及性质,同理可以写出给定x2条件下x1的分布,2.3.1正态分布概率密度函数的定义及性质,

8、线性变换的正态性,多元正态随机向量的线性变换仍为多元正态分布的随机向量。 设具有均值向量为,正定协方差矩阵为的正态随机向量为 x = x1,x2,xdT xEd,2.3.1正态分布概率密度函数的定义及性质,线性变换的正态性,若对x用线性变换矩阵A(A是非奇异(|A|0)的)作线性变换, y = Ax 则y服从以均值向量为A,协方差矩阵为AAT的多元正态分布。即 p(y)N(A,AAT),2.3.1正态分布概率密度函数的定义及性质,线性变换的正态性,随机向量的变换 设随机向量y是另一随机向量x的函数,即,若x、y的函数关系是一一对应的,则其概率密度间满足下面关系,2.3.1正态分布概率密度函数的

9、定义及性质,线性变换的正态性,雅克比行列式,J表示变换后体积微元的变化,Yn坐标系中体积微元 dy1dy2dyn=|J|dx1dx2dxn。|J|表示J的绝对值。,2.3.1正态分布概率密度函数的定义及性质,线性变换的正态性,当x和y只是线性变换时,2.3.1正态分布概率密度函数的定义及性质,线性变换的正态性,此时,J=|A|,|A|表示矩阵A的行列式。从而随机向量y的概率密度函数,|A|表示行列式|A|取绝对值。,2.3.1正态分布概率密度函数的定义及性质,线性变换的正态性,设x的均值向量为,协方差矩阵为,则y的均值向量为=E(y)=AE(x)=A,y的协方差阵为 =E(y-)(y-)T)=

10、AE(x-)(x-)TAT=AAT,2.3.1正态分布概率密度函数的定义及性质,证明:,y = Ax, 即x=A-1y x的均值向量为,y的均值向量为 =A, 即=A-1 根据雅可比行列式的定义,有 |J|=|A|,2.3.1正态分布概率密度函数的定义及性质,证明:,y的概率密度函数与x的概率密度函数之间的关系为,由于,2.3.1正态分布概率密度函数的定义及性质,2.3.1正态分布概率密度函数的定义及性质,即 p(y)N(A,AAT) 根据线性变换的正态性可以说明,用非奇异阵A对x作线性变换后,原来的正态分布正好变成另一参数不同的正态分布。,2.3.1正态分布概率密度函数的定义及性质,2.3.

11、1正态分布概率密度函数的定义及性质,图中特征空间中的一个线性变换将一个任意正态分布变换成另一个正态分布。 变换A将原分布变成分布N(AT,ATA);另一个线性变换,即由向量a决定的向某条直线的投影P,产生沿该直线方向的N(,2)分布。 尽管这些变换产生一个不同空间中的分布,还是将它们显示在原x1x2空间中。一种白化变换,将产生一个圆周对称的高斯分布。,列向量是的正交本征向量,与本征值对应的对角矩阵,变换后的意义,由于是对称阵,根据线性代数知识总可以找到某个A使得变换后y的协方差阵AAT为对角阵,这就意味着y下的各个分量间是相互独立的(性质的推论),也就是说总可以找到一组坐标系,使各随机变量在新

12、的坐标系中是独立的。 这一性质对解决某些模式识别问题有着重要意义。,2.3.1正态分布概率密度函数的定义及性质,线性组合的正态性,若x为多元正态随机向量,则线性组合,是一维的正态随机变量,其中 是与x同维的向量。,2.3.1正态分布概率密度函数的定义及性质,线性组合的正态性,证明,利用性质作线性变换y=ATx,则 p(y)N(AT,ATA),其中 为非奇异阵,A1为d(d1)维的矩阵, 。,2.3.1正态分布概率密度函数的定义及性质,这时,根据性质,y是服从以均值向量AT,协方差阵ATA的多元正态分布。,又根据性质y的边缘分布的正态性,可以得出 服从正态分布,其概率密度函数为,2.3.1正态分

13、布概率密度函数的定义及性质,根据最小错误率贝叶斯判别函数,在多元正态概型(p(x|i)N(i,i),i=1,,c)下就可以立即写出其相应的表达式。 判别函数为,2.3.2 多元正态概型下的最小错误率贝叶斯判别函数和决策面,决策面方程为,即,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,这种情况中每类的协方差矩阵都相等,而且类内各特征间相互独立,具有相等的方差。下面再分二种情况讨论。 先验概率P(i)与P(j)不相等 此时各类的协方差矩阵,第一种情况,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,从几何上看,相当于各类样本落入在以i为中心的同样大小的一些超球体内。由于

14、,由于上式中的第二、三项与类别i无关,故可忽略,并将gi(x)简化为,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,判别函数gi(x)还可进一步简化:,是x的二次函数,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,忽略与i无关的xTx,则判别函数为,其中,wi0为第i个方向的阈值或偏置。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,决策规则就是要求对某个待分类的x分别计算gi(x),i=1,c。若,则决策xk。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,P(i)=P(j)时的情况,如c个类别的先验概率P(i),i=1,c都相等,则可

15、忽略,中的lnP(i)项,使最小错误率贝叶斯决策规则表达得相当简单。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,P(i)=P(j)时的情况,若要对观察x进行分类,只要计算x到各类均值i的欧氏距离平方| xi|2,然后把x归于具有 的类。,这种分类器称为最小距离分类器。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,判别函数gi(x)是x的线性函数。 判别函数为线性函数的分类器称为线性分类器(linear machine)。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,在i=2I 下,这个方程可改写为,wT(xx0) = 0,2.3.2多元正态概型

16、下的最小错误率贝叶斯判别函数和决策面,满足wT(xx0) = 0式的x的轨迹为i与j类间的决策面,它是一个超平面。 如果2相对于平方距离|i-j|2较小,则判决边界的位置相对于确切的先验概率值并不敏感。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,当P(i)= P(j)时,超平面通过i与j连线中点并与连线正交,如图所示。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,当P(i)= P(j)时,超平面通过i与j连线中点并与连线正交,如图所示。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,当P(i)= P(j)时,超平面通过i与j连线中点并与连线正交,

17、如图所示。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,如果两种分布的协方差矩阵相等并且与单位阵成比例,那么它们呈d维球状分布,其判决边界是一个d-1维归一化超平面,垂直于两个中心的连线。在这些一维、二维及三维的例子中,是假设在P(i)= P(j) 的情况下来显示p(x|i)和判决边界的在三维情况下,一个栅格平面将R1和R2分开。,当P(i)P(j)时,点x0将远离可能的均值。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,第二种情况i=,由i =2 =c =,即与i无关,所以,其判别函数可简化为,若c类先检概率都相等则判别函数可进一步简化为,2.3.2多元正态概

18、型下的最小错误率贝叶斯判别函数和决策面,这时其决策规则为:为了对观察x进行分类,只要计算出x到每类的均值点i的Mahalanobis距离平方,最后把x归于最小的类别。 将上式展开,忽略与i无关的xT-1x项,则判别函数可写成下面的形式,wi=-1i,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,它也是x的线性判别函数,因此决策面仍是一个超平面。如果决策域Ri和Rj相邻,则决策面方程应满足 gi(x)gj(x)=0 wT(xx0)=0 其中 w=-1(ij),2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,相等

19、但非对称的高斯分布的概率密度(由二维平面和二维椭球面表示)及判决区域。判决超平面未必和均值连线垂直正交,若各类的先验概率相等,,此时x0点为i与j连线的中点,根据前面的讨论,决策面应通过这一点,如图所示。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,若先验概率不相等,x0就不在i与j连线的中点上,而是在连线上向先验率小的均值点偏移。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,随着先验概率的改变,判决边界也随之改变;对于差别较大的离散先验概率而言,判决边界不会落于这些一维、一维及三维球状高斯分布的中心点

20、之间,第三类情况ij,各类的协方差阵不相等,(dd矩阵),(d维列向量),2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,判别函数gi(x)表示为x的二次型。 若决策域Ri与Rj相邻,则决策面应满足gi(x)gj(x)=0 即 xT(WiWj)x+(wiwj)Tx+wi0wj0=0 由上式所决定的决策面为超二次曲面,随着i,i,P(i)的不同而呈现为某种超二次曲面,即超球面、超椭球面、超抛物面、超双曲面或超平面。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,在一维情况下,对于存在任意协方差的情况,判别区域也可以不连通。如图所示。,2.3.2多元正态概型下的最小错误率

21、贝叶斯判别函数和决策面,任意高斯分布导致一般超二次曲面的贝叶斯判别边界。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,任意高斯分布导致一般超二次曲面的贝叶斯判别边界。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,任意高斯分布导致一般超二次曲面的贝叶斯判别边界。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,任意的三维高斯分布产生的超二次曲面的贝叶斯判别边界。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,任意的三维高斯分布产生的超二次曲面的贝叶斯判别边界。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,任意的三维高斯分布

22、产生的超二次曲面的贝叶斯判别边界。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,任意的三维高斯分布产生的超二次曲面的贝叶斯判别边界。甚至还有退化为直线的判别边界。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,4个正态分布的判决区域。尽管对于类别数如此少的情况,其判别区域的形状也是相当复杂的。,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,如果分布更加复杂,则判别区域将更加复杂,尽管基本理论是一致的。,例:,如图所示模式,试求判别函数。其中i和i分别用,估计。Ni表示i类的样本数,xij表示第i类中的第j个样本。,2.3.2多元正态概型下的最小错误率

23、贝叶斯判别函数和决策面,解:,由图知: X1=(101)T,(000)T,(100)T,(110)T, X2=(001)T,(011)T,(111)T,(010)T,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,解:,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,解:,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,存在,解:,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,由于两类的协方差矩阵相等,使用方程,i =1,2,c,所以lnP(i)可略去,将x = (x1,x2,x3)T、i、代入上式,因为,2.3.2多元正态概型下的最小错误率贝

24、叶斯判别函数和决策面,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,判别面方程为 2x12x22x3+1 = 0 如图所示,2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面,例 二维高斯分布数据的判别区域,为了阐明以上这些思想,通过例题详细的计算两类问题中二维数据的判决边界。两类高斯分布所计算出的贝叶斯判决边界,每一类都基于4个数据点。以1表示4个黑点的集合,2表示红点集合。,二维高斯分布数据的判别区域,假设两类先验概率相等,则,为顶点位于(3 1.83)的抛物线。,对观察样本进行分类是模式识别的目的之一。 在分类过程中任何一种决策规则都有其相对应的错误率。 错误率反映

25、了分类问题固有复杂性的程度,可以认为它是分类问题固有复杂性的一种量度,在分类器设计出来后,通常总是以错误率的大小来衡量其性能的优劣。特别是对同一种问题设计出几种不同的分类方案时,通常总是以错误率大小作为比较方案好坏的标准。 在模式识别的理论和实践中错误率是非常重要的参数。,2.4 关于分类器的错误率问题,2.4 关于分类器的错误率问题,对于两类问题用最小错误率贝叶斯决策规则时,其错误率为,从上式可以看出当x是多维向量时,实际上要进行多重积分的计算。 所以,虽然错误率的概念较简单,但在多维情况下类条件概率密度函数的解析表达式较复杂时,计算错误率是相当困难的。,2.4 关于分类器的错误率问题,对错

26、误率的求取方法,人们在处理实际问题时研究了一些对错误 率的计算或估计的方法,可概括为以下三 方面: 按理论公式计算, 计算错误率上限, 实验估计。,2.4 关于分类器的错误率问题,误差概率和误差积分,首先考虑两类情况,且假设二分分类器以一种可能不是最优的方式将空间分成两个区域R1和R2。错误分类可能以两种形式出现:真实类别为1,而观测值x落入R2,或者真实类别为2,而观测值x落入R1。由于这些事件互斥并且覆盖整个事件空间,因此误差概率为,2.4 关于分类器的错误率问题,(70),误差概率和误差积分,此结果的一维情况如图2-17所示。,2.4 关于分类器的错误率问题,粉红区域对应于实际类别为2而

27、判为1的误差概率灰色区域相反,如式(70)。如果判决边界在相等后验概率点xB处,那么此“可去误差”区将消失,总的有阴影的区域将减到最小这就是贝叶斯判决导致的贝叶斯误差率。,误差概率和误差积分,一般的,如果p(x|1) P(1) p(x|2) P(2),则将x划归为R1是比较有利的,这样可减小误差积分的大小,而这正是贝叶斯判决规则所得的结论。 在多类情况下,出错的方式比正确的方式多,因而计算正确分类的概率相对较简单,显然,2.4 关于分类器的错误率问题,(71),正态密度的误差上界,贝叶斯判决规则确保了最低的误差概率,并且知道如何计算判决边界。然而,这些结论并没有告诉我们实际的误差概率是多少。高

28、斯情况下的整个误差率计算过程相当复杂,尤其是高维情况,这是因为式(71)的积分范围中的判决区域不连续。但是,两类情况下式(5)的一般误差积分公式可近似的给出一个误差率的上界(upper bounds)。,2.4 关于分类器的错误率问题,Chernoff界(1),为获得误差的界(bound),需利用下列不等式:假设ab,因此可将上式写成,2.4 关于分类器的错误率问题,Chernoff界(2),利用式(7)和(1)并将此不等式代入式(5)可得到上界,,2.4 关于分类器的错误率问题,(73),尤其注意此积分是在整个特征空间上的积分,不需要加上与判决边界对应的积分限制。,(1),(5),(7),C

29、hernoff界(3),利用式(7)和(1)并将此不等式代入式(5)可得到上界,,2.4 关于分类器的错误率问题,(73),尤其注意此积分是在整个特征空间上的积分,不需要加上与判决边界对应的积分限制。,(1),(5),(7),Chernoff界(4),如果条件概率是正态的,式(73)的积分结果可用解析法计算出,2.4 关于分类器的错误率问题,(75),(74),图2-18的例子显示了e-k()如何随的变化而变化的典型情形。P(error)的Chernoff界可通过数值分析或直接查找使e-k()最小的值求出,然后把这个代入式(73)。,Chernoff界(5),此优化过程是在一维空间中进行的,尽

30、管分布本身可能位于任意高维的空间。,2.4 关于分类器的错误率问题,图2-28 Chernoff界不会比Bhattacharyya界松弛。此例中,Chernoff界取在*=0.66处,比Bhattacharyya界(*=0.5) 稍微紧致一些。,Bhattacharyya界 (1),图2-18所示的Chernoff界对的依赖性在很多问题中都普遍存在,即对于处于极值(即1和0)处的界较松弛,而中间较紧致。 优化后的的精确值取决于分布参数和先验概率,一种计算较简单但稍微松一点的界可以通过仅仅取=1/2处的值获得。 这就给出了Bhattacharyya误差的界,于是式(73)的形式为,2.4 关于分类器的错误率问题,(76),Bhattacharyya界 (1),其中通过式(75)可得高斯分布的情况如下:,2.4 关于分类器的错误率问题,(77),如果分布并非高斯的,Chernoff和Bhatacharyya界仍然可用,但是,对于偏离高斯分布太远的分布,这些上界并不能说明什么问题。,说 明,Bayes决策所需的条件是最多的,必须知道各类先验概率和观测量的类条件概率密度。 实际工作中,在决策之前必须解决概率密度的估计问题。,2.4 关于分类器的错误率问题,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报