1、2019/5/13,中国矿业大学 计算机科学与技术学院,(19)1,4.4 按概率距离判据的特征提取方法,上一节讨论的是样本在特征空间的分布距离作为特征提取的依据。,该种原理直观,计算简便。但是这种原理没有考虑概率分布,因此当不同类样本中有部分在特征空间中交迭分布时,简单地按距离划分,无法表明与错误概率之间的联系。,如何依据不同类别类分布概率密度函数来优化特征空间?,汞欲狗暑奎齿材污啃彤淖骗圭赂简侍秋灿驾饯望獭缅熊痕畏喂赊氰涛掀囊04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)2,4.4.1
2、基于概率分布的可分性判据,不同类别在特征空间x中的分布要尽可能不一样,则分类就比较容易。,不同类别在特征空间的不同区域聚集,则分类就容易,它们重迭的程度越低,越有别于分类。,本节的可分性判据就是用各种方式来度量它们之间重迭的程度。,一种是用p(x|1)p(x|2)之间的乘法来计算其重迭程度,像Bhattacharya距离等,另一种用两者间的比值,称为散度。,价捕嫉煎躲勒抑裳疹邹瓷丝菲衷镇嚎鲁舔首讥迹肠穴稀闯披理馏斟摈鸿屑04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)3,图a 完全可分情况,图
3、b 完全不可分情况,图a:对p(x|2) 0处都有p(x|1) 0,则这两类就完全可分,图b:对所有x都有p(x|2) =p(x|1),则两类就完全不可分。,陋催谊衙涅咖杰矛鳃铃技攒晤争拍险龟如脂道颈镣谅偶滚冀绩职吠豫姻协04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)4,因此人们设计出与概率分布交迭程度有关的距离度量方法,这些距离Jp有以下几个共同点:,(1) Jp是非负,即Jp0,(2) 当两类完全不交迭时Jp达到其最大值,(3) 当两类分布密度相同时,Jp=0,这种函数的一般式可表示为:
4、,(4.4-1),殿颜辨段歇慨咽盖卉塑蚕汞惺葡俯檬揪假狞貉勿玫祟肩何蔚覆厕氢拓愤哄04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)5,一些常用的概率距离度量,1. Bhattacharyya距离和Chernoff界限,当p(x|2) =p(x|1) 对所有x值成立时JB0,而当两者完全不交迭时JB为无穷大。,其中S取0,1区间的一个参数,显然(4.4-3)在S=0.5时就变为(4.4-2)式,因此Chernoff界限是Bhattacharyya距离的一个特例。,腮弦促泳颈拥啊漫错告焦赴惯邦灌僵
5、晴辱彪蛇鞘靴捡韶圭旅裂柯疼凰迁炽04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)6,2. 散度,如果对某个x,当p(x|2) =p(x|1) ,则lij=0,反之若两者差异越大,则lij的绝对值也大。,对整个特征空间概率分布的差异程度作出评价,将对i类及对j的可分性信息分别定义为:,央晒棱挚氛掉腊遗扒峭更骚痉鼻牟承疆秆改酚袭肤拘照熙辣泌抿抵园收玄04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)
6、7,散度为总的平均可分信息,可表示成:,幂呕樟遁袱帅翔损纪哨熙版闪巨拢拥汲厘洲热剃炙陨撑咬也缘棺褥少盅冻04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)8,3. 正态分布时基于概率分布距离度量,设两类别分别表示为:,散度为:,锻拓钧肄业育照写糊掀封吉诸窗阿链辱皇讼滨烦姐礁骚兹烬烷疤遁扔意绅04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)9,如果两类协方差矩阵相等,即,则,上式右部称为Mahal
7、anobis距离的平方。从该式中可以看出在协方差矩阵相等条件下散度与4.3.1中定义的JD很相似,它们都是对样本在特征空间分散程度的描述,只是JD是用欧氏距离度量,而JD在协方差矩阵相等的条件下是用Mahalanobis距离度量。,吾坎耗拈拄庚举箱筏分颂嘛皖护蚁毕莆蛰姨匈哉别皮粗姻绢魔毒冈辽赐油04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)10,在正态分布时Bhattacharyya距离JB可表示成:,如果两类协方差矩阵相等,即,则,它与散度JD的表达式只差一个常系数。,意荔虱唁棺尸淋衡豌饵
8、档滋价晾懊氖收最鹊枣曹区坤幼绘唐鉴杰贴皮搜舔04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)11,4.4.2 按概率距离判据提取特征,在讨论如何按概率距离判据进行特征提取时,与上面讨论欧氏距离为基础的判据的基本方法是一样的。设原始特征为Y,而经变换后的特征为X,两者之间有映射关系:,利用这种关系,可以将有关判据的表达式表示成映射关系W的函数,例如JD(W) ,然后求这些表达式对W各分量的偏导数,并令其为零,得到所需的方程式组,并用相应方法求解。,炒麦膳承猩孕搔埠婉焙诗靛嘎多黍痹珍汛恰挣食求帮稗
9、壹伙律耕插苫骨淫04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)12,两类别问题以及在协方差矩阵相等的条件下,用JD方法提取特征的算法。,是一标量,因而,其中,利用该式,可使原D维特空间变换成一维的特征空间。与任何其它一维空间相比,散度JD达到极值(最佳)。,柯砌格绥辕忍暮膛拘忻拼承捏雕具矢睫眠憨立窃跃绣蚂肮藻俏颈骇靠甜扛04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)13,4.5 基于熵函数
10、的可分性判据,上一节讨论基于概率分布的距离判据是研究类条件概率分布定义的可分性判据。这一节讨论基于后验概率分布的判据。,知道一个样本不同类的先验概率是贝叶斯决策的依据,因此在特征空间的任何一点,如果它对不同类别的先验概率差别很大,则为分类提供了很明确的信息,而Shannon信息论定义的熵就可以用来对可分类性作出评价,故这方面可分性判据的定义称之为基于熵函数的可分性判据,,妹凋膝岛搽危婚岁亮血往蜀痪坎双荤多咽蓉包崔熟塘有口用凹脑毯铺戍弃04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)14,4.5
11、.1 基于熵函数的可分性判据,如果对某些特征,各类后验概率都相等,即,其中c为类别数,则样本的类属就无法确定,或者只能任意指定样本所属类别。此时,是错误率最大的情况。,芒役辗娥津蜘获爹留楔给务痘屠罢急充尖鹿飘隶杯记厚帝辫迪椭骸吝娘验04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)15,如果考虑另一极端,假设能有一组特征使得,那末此时的X肯定可划分为i ,而错误率为零。由此可看出,后验概率越集中,错误概率就越小,反之后验概率分布越平缓,即接近均匀分布,则分类错误概率就越大。,为了衡量后验概率分布
12、的集中程度,可以借助于信息论中熵的概念,制订定量指标。例如Shannon熵为,(4.5-1),另一常用的平方熵,(4.5-2),烹罢剖掳竭砂于盆绑概恼必租撂絮少负且楞尖厄镣艺宿箩售墒湖稳琼阿缴04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)16,这两者都有熵函数的以下共性,(1) 熵为正且对称,即函数式内项的次序可以变换不影响熵的值;,(2) 如p(i ,x)=1,(1ic),则Hc=0,(3) 对任意的概率分布p(i ,x) 0,(i=1,c),以及,则,这些函数都可用作各类别样本后验概率集
13、中分布程度的定量指标。,堡遮雹窘切罐粗腿碴赚骸株柏锡迪水摹另颧人搅杯纲也睡味暗罚舶鞘姑珐04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)17,4.5.2 相对熵的概念及应用举例,另外一种基于熵的概念,称为相对熵,它用来判别某一种分布p(Xi)偏离给定w(Xi) 的程度,表示成:,其中求和在该特征所有可能的取值范围内进行。相对熵越小,这两类概率分布的差别越大。因此可以利用相对熵概念设计对两类概率的判别熵。,(4.5-3),(4.5-4),多类的情况,(4.5-5),些但钓玄队霄诛迫套稽退醇亚退虏
14、更尔棘妈碴捐参梁卜潜踢泊久逐诲读狞04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)18,为了计算方便,也可采用以下函数代替w(p,q),,(4.5-6),其中pi与qi表示两类同一特征分布的函数。,当两类特征向量各分量的分布都相等时,U(p,q)等于零。,筋汀潘助叛赛枯艺叫壹略欲腮帝每娶躬顿纽摊搁嫡悄拙咒哭枚拈臻控涣鲁04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,2019/5/13,中国矿业大学 计算机科学与技术学院,(19)19,两类别问题中利用(4.5-6)进行特征提取,定义这两类样本的协方差矩阵 G(1) , G(2) 。,其中n表示类别号,Nn为该类样本数。,利用这两个协方差矩阵,定义一个矩阵A:,将矩阵A的特征值排列成,则取前d个特征值所对应的特征向量构成坐标系统,可使判别熵最小。,淤突霉盎秀斥览径猪设整摹悄髓诗因圾漱赦雁霜译殿举腊晌算葫冲酞枪柔04第四章 特征的选择与提取4.4-4.504第四章 特征的选择与提取4.4-4.5,