1、1第 3 章 正态分布时的统计决策在统计决策理论中,涉及到类条件概率密度函数 。对许)|(iwxP多实际的数据集,正态分布通常是合理的近似。如果在特征空间中的某一类样本,较多地分布在这一类均值附近,远离均值点的样本比较少,此时用正态分布作为这一类的概率模型是合理的。另外,正态分布概率模型有许多好的性质,有利于作数学分析。概括起来就是:(1) 物理上的合理性(2) 数学上的简单性下面重点讨论正态分布分布及其性质,以及正态分布下的 Bayes决策理论。3.1 正态分布概率密度函数的定义及性质1单变量正态分布定义: (3.1-1))(21exp)(x其中: 为随机变量 x 的期望,也就是平均值;为
2、x 的方差, 为均方差,又称为标准差。2(3.1-2)dxE)()((3.1-3)x22概率密度函数的一般图形如下:2具有一下性质:)(x)(,0)xx(3.1-4)1d从 的图形上可以看出,只要有两个参数 就可以完全确)(x 2和定其曲线。为了简单,常记 为 。若从服从正态分布的总)(x),(2N体中随机抽取样本 x,约有 95的样本落在 中。样本的)2,(分散程度可以用 来表示, 越大分散程度越大。2多元正态分布定义: (3.1-5) )()(21exp|)2(11 xxTd其中: 为 d 维随机向量,对于 d 维随机向量T,1x,它的均值向量 是 d 维的。也就是:为 d 维均值向量。T
3、,21是 维协方差矩阵, 是 的逆矩阵, 为 的行列式。d1|协方差矩阵 是对称的,其中有 个独立元素。由于 可由2/)()(x和 完全确定,所以实际上 可由 个独立元素来确定。)x/)1(d是 的转置,且:Tx)()(xE3)(TxE、 分别是向量 x 和矩阵 的期望。具体说:若 是 Tx)(ix的第 i 个分量, 是 的第 i 个分量, 是 的第 i、j 个元素。xi 2ij(3.1-6)iiii dxdxxE)()(其中 为边缘分布,)(i di xx 21)(“对于二维随机变量 X 和 Y 作为一个整体,其分布函数F( x,y) ,而 X 和 Y 都是随机变量,各别也有分布函数 FX(
4、x)、FY(y),分别称为二维随机变量(X ,Y)关于 X 和 Y 的边缘分布函数。有:和 。),()xX ),()yFY对于离散随机变量有:从中得到 X 的分布律为:xjijXipFx1),()同样,Y 的分布律为 。1jijiP 1ijjpyYP对于连续型随机变量(X,Y ) ,假定它的概率密度为 ,由:),(yxf知道,X 的概率密度为:dxyfxFxX),(),()同样也可以求出 Y 的概率密度函数。 ”dyff而: )(j2iijxE(3.1-7)),()(j jijii dx协方差矩阵:4(3.1-8)2212211ddd 是一个对称矩阵,只考虑 为正定矩阵的情况,也就是 所有|的
5、子式都大于 0。即 , ,0|21021同单变量正态分布一样,多元正态分布 可以由 和 完全确)(x定,常记为 。),(N3多元正态分布的性质(1)参数 对分布的决定性和对于 d 维随机向量 x,它的均值向量 也是 d 维的,协方差矩阵是对称的,其中有 个独立元素。 可由 完全确定,实2/)1(d)(x和际上 可由 个独立元素决定。常记为: 。)(x )(x),(N(2)等密度点的轨迹为一超椭球面由 的定义公式(3.1-5)可知,当右边指数项为常数时,密)(x度 的值不变,所以等密度点满足: 常 数)()(1xxT可以证明,上式的解是一个超椭球面,其主轴方向取决于 的本征向量(特征向量) ,主
6、轴的长度与相应的本征值成正比。如下图所示:5从上图可以看出,从正态分布总体中抽取的样本大部分落在由和 所确定的一个区域里,这个区域的中心由均值向量 决定,区 域的大小由协方差矩阵决定。在数理统计中,令: )()(12xxT式中 称为 x 到 的马氏距离(Mahalanobis)距离。所以,等密度点轨迹是 x 到 的马氏距离 为常数的超椭球面。该超椭球面构成的球体的大小是样本对于均值向量的“离散度度量” 。体积: d21|!)!21(2)(dd如果 d 确定了,则 不变,v 与 有关。也就是对于给定的维21|数 d,样本离散度随 而变。21|(3)不相关性等价于独立性概率论中,两个随机变量 和
7、之间不相关,并不意味着它们一ixj定独立。如果 和 之间不相关,则 的数学期望有:ixj jid 为偶数d 为奇数6)()(jiji xExE如果 和 相互独立,则有:ij)(),(jiji xPxP独立性是比不相关更强的条件。不相关反映了 和 的总体性质。ixj如果 和 相互独立,则它们之间一定不相关,反之则不成立。但是ixj对服从正态分布的两个分量 和 ,若 与 互不相关,则它们之间ixjixj一定独立。证明:根据定义, 和 的协方差ixj )(2jiijxE又根据不相关定义 有:)(),(jijixE)(2 jiiijxE又: ,)(iix 0)()( iiii x所以:有 02ij协方
8、差矩阵 成为对角阵。21d可以计算出: 210d,di12|i1| dddxxxTx 122111 0,)()( 21)(diix7因此, )()(21exp|)2(11 xxTd diiiii 11 )()(根据独立性的定义:正态分布随机向量的各分量间互不相关性与相互独立等价。(4)边缘分布与条件分布的等价性不难证明正态随机向量的边缘分布与条件分布仍服从正态分布。从(3)证明得出的结论 表达式,如果 x 用 表示,有:)(x1)(21ep2)( 21xi也就是说,边缘分布 服从均值为 ,方差为 的正态分布:)(1x121),()211Nx同理, ,(2另外,条件分布,给定 的条件下 的分布:
9、1x2x)(,()|(112xx )()()(|2ep|, 212211 xxx代入上式, 服从正态分布,同理 也服从正态分布。)|(1x )|((5)线性变换的正态性对于多元随机向量的线性变换,仍为多元正态分布的随机向量。就是:x 服从正态分布 ,对 x 作线性变换 ,其),()Nx Axy中 A 为线性变换矩阵,且 ,则 y 服从正态分布:0|A8),()TANy(6)线性组合的正态性若 x 为多元正态随机向量,则线性组合 是一维的正态随机xayT变量: ),()aNyT其中,a 与 x 同维。3.2 正态分布中的 Bayes 分类方法在上一章,我们已经把基于 Bayes 公式的几种分类判
10、决规则抽象为相应的判决函数和决策面方程。这几种方法中 Bayes 最小错误率判决规则是一种最基本的方法。如果取 01 损失函数,最小风险判决规则和最大似然比判决规则均与最小错误判决规则等价。为了方便,我们以最小错误判决规则为例来研究 Bayes 分类方法在正态分布中的应用。9由最小错误率判决规则抽象出来的判决函数如下: )(|()iii wPxg ci,2,1如果类概率密度是正态分布的,则 。)|(ix),(iN21exp|)2( 121 iiTiidixg由于对数函数是一个单调变化的函数,上式右边取对数后作为判决函数使用不会改变类型区域的划分。因此: )(ln|l21ln)()(21)(1
11、iiiiTii wPdxxg 其中, 与类型无关,所有函数皆加上此项后,并不影响区lnd域的划分,可以去掉。下面对几种特殊情况进行讨论。1情况一: ,Ii2ci,1该情况下,每类的协方差矩阵相等,而且类的各特征间相互独立(由上节的性质得知) ,具有相等的方差 。2因此: di2|Ii1将上两式代入 :)(xgi )(lnl21ln2)( idiTii wPd上式中的第 2、3 项与类别无关,可以忽略,因此 可以简化xgi为: )(ln)()(21)( iiTii wPxxg其中: , ,为 x 到类22| ijiiTi x ci,1的均值向量 的“欧氏距离”的平方。iwi10讨论一个特殊情况,
12、 ,所有各类概率相等。则:Pwi)( 222 |11)( iiTii xxxg 此时,对 x 的归类表示为:计算 x 到各类均值 的欧氏距离的i平方 ,然后把 x 归于具有 的类。这种分类器叫2|ix 2,1|minic最小距离分类器。接着对 进一步化简:)(xgi )(ln)()(21iiTii wPx)(ln2iiTii式中: 与 i 无关,可以忽略:xT 02 )(l)(1)( iTiiiTiii wxPxg 式中: iiw)(ln210 iiTii w是一个线性函数。)(iTiixg决策规则:对某个 x 计算 , ,若 ,)(xgi ci,2,1)(max)(ggik则决策 。kwx由
13、于 为线性函数,其决策面由线性方程0)(iTiixg构成,决策面是一个超平面。0)(xji 0)()(0xwxTiTii 推 导 出jiw)()ln)(2120 jijijiji Px 上述结果表示在二维特征空间里,如下图所示:11两个同心圆是两类概率分布等密度点轨迹,两个圆心就是两类的均值点。两类的区分线 与 垂直,其交点为 。 一般不是 的l210x21中点,但当 时, 为 的中点。若 时, 向)(21wP0x21 )(21wP0x先验概率较小的那个类型的均值点偏移。可以推广到多类的情况,注意这种分类方法没有不确定的区域。2. 情况二: i各类的协方差矩阵相等,在几何上,相当于各类样本集中
14、在以该类均值 为中心的同样大小和形状的超椭球内。i21 )(ln|l21ln)()()(1 iiiiTii wPdxxg 不变,与 i 无关:)(l)()(21)(1iiiTii wPxx一个特例,当 时,各样本先验概率相等。Pwi )()()(1iiTi xxg其中: 2ii为 x 到均值点 的“马氏距离”的平方(Mahalanobis) 。i12进一步简化: )()()(12iiTi xxg对于样本 x 只要计算出 ,把 x 归于 最小的类别。2接着对 化简:)(i )(ln21211iiTiTiTi wPxxg 去掉与 无关的项: )(ln)(11 iiTiTii xx0iiw其中: ,
15、iTi1)(l21iiTii wP也是一个线性函数,对应的决策面也是一个超平0)(iiixwg面。对于 和 相邻,决策面方程:iRj 0)()(xwxgT其中: 1jiw )()()(ln)(210 jijiTjijiji Px 与第一种情况不同,此时决策面通过 ,但不与 正交(垂0xji直) 。二维情况:13当各类先验概率相等时 )(jiwP)(210jix位于 的中点上。当各类先验概率不相等时, 不在ji 0x的中点上,而是偏向先验概率较小的均值点。ji3第三种情况各类协方差矩阵不等: ,jici,2,1由于: )(ln|l2ln)()(21)(1 iiiiTii wPdxxg 去掉与 无
16、关的项 ,得:lnd)(l|l)()()(1 iiiiTii xx表示为:)(xgi 0iiii wWg其中: 12ii 矩 阵d维向量iiw)(lnl210 iiiTii wP此时 表示为 的二次型。)(xgix对于 和 相邻,决策面应为:iRj0)(x 0)()( 0jiTjijiT wxwxW14该曲线为超二次曲面。随 、 、 的不同,超二次曲面为:ii)(iwP超球面、超椭球面、超抛物面、超双曲面,或超平面等。假设特征空间是二维的,模式样本的两个分量之间是相互独立的,所以协方差矩阵是 2X2 维的对角矩阵。令各类的先验概率相等,那么不同类型区域的划分取决于各类的均值向量和两个方差项的差
17、异,而决策面的形状主要取决于两个方差项的差异。,210iii210jjj(1)若 , ,且 ,则两类的概率分布等iii21 jjj21 ji密度线分别是以各自均值点为圆心的同心圆,圆的大小与相应的方差相一致。由于 ,所以来自类型 的样本更密集于它的均值点jijw附近;同时,由于园的对称性,决策面为包围均值点 的一个圆。j(2)若在上图的(a)的基础上增大分量 x2 的方差 和 ,使2ij15和 ,这样图(a)中的圆在 x2 方向上伸展,而变成椭圆,21ii21jj如图(b)所示,决策面也变成了椭圆。(3)若 , ,在这种情况下,分量 x2 大的样本21jji21iix 很可能来自类型 ,使决策
18、面变成一条抛物线,如图(c)所示。iw(4)若在(c) 的基础上增大 ,使 , , ,在1j 21ji21ii21jj这种情况下,决策面变成双曲线,如图(d)所示。(5)在一非常特殊的对称条件下,使(d)中的双曲线向一对互相垂直的直线退化,如图(e)所示。在这种情况下,两种类型是线性可分的。清华模式识别书上 P34 中间用图讨论了几种决策面的变化。例 1:设在三维特征空间里,两类的类概率密度是正态分布的,分别在两个类型中获得 4 个样本,位于一个单位立方体的顶点上,如下图。两类的先验概率相等,试确定两类之间的决策面及相应的类型区域 和 。1R2解: 和 表示两个类型,由图可知,两个类型的样本:
19、1w2: , , ,T)0,(),(T)0,1(),(16: , , ,2wT)0,1()1,(T),0()1,(用各类样本的算术平均值近似代替各类均值向量,也就是: 1kiixN为 中的样本数, 表示 的第 个样本。iNiwiiwk协方差矩阵由其定义求得: TiikNkiTjiii xRi 1式中 为类 的自相关函数。iiw由题中所给条件: ,2,i421N有: ,T)1,3(4T)3(4 1396)41,(),(),(1TT9316)4,1(32T 1034)1,0(),1(0),1(0),(041R同理: 2132 316139610411TR316217因此, 符合情况二。用情况二的公式确定决策面。2114决策面为 , ,0)(0)(21xwxgT)(21w,先验概率相等)(210x 21P 844)(21wTx)1,()(0决策方程: 0xT21)8,(3x也就是: 0)21(8)()(31 x04832x如下图所示。11w 指向的一侧为正,是 w1 的区域 R1,负向的一侧为 w2。