1、判别分析 Discriminant Analysis,判别分析的相关例子(1), 在经济中的应用:中小企业的破产模型 为了研究中小企业的破产模型,选定4个经济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得关于上述四个指标的资料 现有8个未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正常运行企业一类?,判别分析的相关例子(2), 在天气预报中的应用 根据经验,下列两个因素是预报明天下雨与不下雨的重要因素:
2、今天与昨天的湿度差 x1 今天的压温差(气压与温度之差)x2 今测得x1 与x2,应预报明天下雨还是预报明天不下雨?,判别分析的其他例子,预测新产品的成功或失败 判断一个人是否患有某种疾病 按职业兴趣对学生分组 确定某人信用风险的种类 ,前 言,判别分析是一种进行统计判别和分组的技术手段。 判别分析与聚类分析的不同之处在于判别分析带有“预测”意义。 判别分析的目的就是从现有已知类别的样本数据中训练出一个判别函数,以后再有未知类别的数据进入,就利用建立的函数来判断其类别(判别规则)。 各类判别问题的前提有所不同,进行划分或寻找判别函数的准则也可以不同,判别分析的方法有:距离判别,费歇判别,贝叶斯
3、判别等。,判别分析与聚类分析的联系与区别,都要求对样本进行分类,但分析的内容和要求不一样 聚类分析事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类 判别分析是在事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别某些思想和方法相同两者往往结合起来使用 当分类不清楚时,可以先用聚类分析对原有样品进行分类,然后再用判别分析建立判别函数以对新样品进行归类,例8.1,根据经验,今天与昨天的湿度差x1及今天的压温差(气压与温度之差) x2是预报明天下雨或不下雨的两个重要因素。今测得x1=8.1,x2=2.0,试问应预报明天下雨还是预报明天不下雨?,例8.1,X1,20,10
4、,0,-10,-20,X2,20,10,0,-10,-20,新样本点,U(x1,x2),D2-非雨区,D1-雨区,这是一个最简单的判别分析问题 由判别因子x1和x2: 将二维样本空间划分成两个互不相交的区域D1和D2,根据新样品判别因子的观察值,若它落在区域Di,就判该样品属于i类 构造一个判别函数u(x1,x2),然后根据新样品的函数值判断其属于哪一类,数学模型(概率论的角度),模型:G个总体:1 ,2 , ,g , ,G 其中g 是 p 维随机变量对应的分布函数 Fg (x1, x2, xp)g=1,2,G (x1, x2, xp)是表征总体特性的p维随机变量的取值,在判别分析中称之为判别
5、因子。,现有一个新的样本点 x =(x1 , x2 , , xp )要判断此样本点是属于哪一个总体的? 假如能掌握每一个总体g的分布规律或某些数字特征,则这类问题的解决是不难的,实际处理方法,在每一个总体中取一个容量为ng的样本 (g=1,2,G ), 然后根据已知类别的样本所提供的信息,判断新的样本点属于哪一类,一般判别分析的模型,需要判别的类型有G类,起判别作用的因子有p个:(x1, x2, xp),从第g类中取得 n g 个样品,其第 i 个样品的 p个判别因子的取值为:xi(g) =(xi1 (g), xi2 (g), , xip (g) ) 对p维空间作出一个划分:D1, D2, D
6、G互不相交 或者构造一个判别函数:u(x1, x2, xp)以u(x1, x2, xp)作为新样品所属类型的判断,常用的判别方法,距离判别 Fisher判别 Bayes判别 逐步判别,距离判别,距离判别,判别准则 根据各类的 ng 个样本,求出每类的中心坐标 再根据新样品离开每个类中心的距离远近作出它属于哪一类的判断,(1)两类距离判别:,设有两个总体:1,2,d(x,g)的计算,选用马氏距离d2(x,g)=(x-g)-1(x-g)此距离表示x与随机向量g(x到总体g的距离)的距离,即x到g的均值g的马氏距离。判别规则,判别函数:,为线性判别函数,其中a 称为判别系数,利用判别函数进行判别,判
7、别规则为:若u(x) 0 ,则判 x1若u(x) 0 ,则判 x2,利用 u(x) 将样本空间 RP 进行划分,划 分,当1、2、未知,(2)两类距离判别:,1,2,*,p1时可按多类判别中G=2时的特殊情况处理,注意要点(1),1,2,只有当两个总体的均值有显著差异时判别分析才有意义,注意要点(2),为减少误判的可能性,有时可划定一个待判区域,多类距离判别:,设有多个总体:1,2,G,判别规则:若d(x ,g)= min d(x ,i ) 则判 xg,选用马氏距离d 2 (x,g)=(x-g)-1 (x-g),当g、g( g = 1, 2, G )未知,多类距离判别:1=2=G,距离判别的特
8、点,距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。,Fisher判别,Fisher判别,Fisher判别是根据方差分析的思想建立起来的,即按类内方差尽量小,类间方差尽量大的准则来求判别函数的。 Fisher判别的基本思想是投影,即将原来在p维空间的自变量组合投影到维度较低的D维空间去,然后在D维空间中再进行分类。投影的原则是使得每一类内的离差尽可能小,而不同类间投影的离差尽可能大。 对总体的分布不做任何要求,Fisher判别的图示,两个总
9、体的Fisher判别法:旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,设有G个总体:1,2,G,对任给一个样品x,考虑一个判别函数u(x),记,Fisher判别准则:,寻找u(x):使类内偏差平方和 W0 最小,类间偏差平方和 B0 最大,即 要找 u(x) ,使,达到最大,判别规则:对新样品 x , 若 u(x)-ui= min u(x)-ug则判 xi u(x)可以是x的任意函数,通常只考虑线性判别函数:u(x)= a/x=a1x1+ a2x2+ + apxp 重点转为线性判别函数的系数 a 的确定 u(x)的线性函数亦为Fisher准则下的判别函数,线性判别函数的系数a
10、 确定,一般地,总体的,未知,可以用样本来估计 将B0、W0分别改用样本的判别函数值的组间和组内离差平方和表示:,在 aW a = 1的条件下,求 a ,使 I 达到最大 根据线性代数知识,a为B-W=0 的最大特征根所对应的特征向量,为最大特征根。,两类Fisher判别,假设建立的判别函数为u(x)= ax=a1x1+ a2x2+ + apxp,假设有两个总体1、2 ,分别从两个总体中抽取n1和n2个样品,每个样品观测p个指标,将属于不同总体的样品观测值代入判别函数中,分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差
11、平方和越小越好。,综上,也就是要求越大越好,利用微积分求极值的必要条件可求出使I达到最大值的a1, a2, ap .当然,也可以限定在 F =1的条件下,求出使I达到最大值的a1, a2, ap,定义临界值:不妨假设如果由原始数据求得判别函数得分为u0,对与一个样品代入判别函数中,若u0 u*,则判给第一类,否则判给第二类。,两类Fisher判别分析步骤,建立判别函数(关键求判别系数) 计算判别临界值,根据判别准则对新样品判别分类 检验判别效果 即检验两个总体的均值向量是否相等 因为判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析的意义就不大。,判别效果
12、的检验,检验的前提 要求两个总体协方差阵相同且总体服从正态分布 检验的假设形式,检验统计量,检验的决策规则 给定检验水平 ,查F分布表,确定临界值F 。若F F ,则H0被否定,认为判别有效;否则认为判别无效。,多个总体的Fisher判别法,Fisher判别法实际上是致力于寻找一个或几个最能反映组和组之间差异的投影方向,即寻找线性判别函数:,设有k个总体1,2, , k ,分别有均值向量1, 2 ,, k , 和协方差阵1, 2 , k , 分别各总体中得到样品:,如果组数 k 太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数,设需要m (mk)个。 假
13、设a W a = 1的条件下,B-W=0 的各特征根依次为: ,各特征根对应的特征向量则分别构成第一、二,,m 线性判别函数的系数。 关于需要几个判别函数的问题,需要累计判别效率达到85以上,即,判别准则,以m个线性判别函数得到的函数值为新的变量,再进行距离判别。 设ui(x)为第 i (i=1,2,m)个线性判别函数,贝叶斯(Bayes)判别,Bayes 统计思想,假定对研究对象已有一定的认识,而这种认识常常用先验概率分布描述; 然后取得一个样本,用样本提供的信息再修正已有的认识,从而可以得到后验概率分布; 各种统计推断都通过后验概率分布进行。,最大后验准则,办公室新来了一个雇员小王,小王是
14、好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人?,Bayes判别的基本思想是认为所有G个类别都是空间中互斥的子域,每个观测都是空间中的一个点。在考虑先验概率的前提下,利用Bayes公式按照一定准则构造一个判别函数,分别计算该样品落入各个子域的概率,所有概率中最大的一类就被认为是该样品所属的类别。Bayes判别准则:使错判造成的损失为最小,Bayes判别,错判损失如何定义?,设有G个总体
15、:1,2,g,G 其中g 的 p 维分布密度函数 g fg (x1, x2, xp) fg (x)g =1, 2,G 设D1, D2, DG是p维空间R p的一个划分: D1, D2, DG 互不相容 D1D2DG = R p 对新的样品x的判别规则:若xDg,则判xg , g=1,2,G,划 分,损失函数,以L(hg)表示样品来自第g个总体,而被错判为第h个总体所造成的损失,h=g,hg,错判概率,发生错判的概率,先验概率,第g个总体出现的先验概率为 q g ,g = 1, 2, G,平均损失,利用损失函数、错判概率、先验概率,可以计算:通过划分D1, D2, DG ,按判别规则进行判别而产
16、生的平均损失,Bayes解,所谓Bayes判别法: 就是要选择D1 , D2 , , DG ,使平均损失 I(D1, D2, DG) 达到最小,常称此解为Bayes解,最小Bayes解的简化,引入 Eh(x),要求 Bayes 解,只要求得使 Eh(x) 为最小的h值,取定样品 x 下,使Eh(x)为最小的Bayes解,也就是使后验平均损失最小的Bayes解,L(hg)的简化,各种错判的损失一样,都定义为1,Eh(x)的简化,求Eh(x)的最小值等价于求q h f h(x)的最大值相当于求后验概率的最大值,Bayes判别规则,若q h f h(x)= max q g f g(x) ,则: 判
17、x h ,h=1, 2,G,两类判别,假定gN p(g ,), g = 1,2,对新样品x:若q1 f1(x)q2 f2(x),则: 判x1若q1 f1(x)q2 f2(x),则: 判x2若q1 f1(x) = q2 f2(x),则: 任 判,等价于,若令,又等价于,多类判别,假定gNp(g ,), g=1, 2,G,两边取对数,得判别函数,当g , 未知时,取样本作估计,则判别函数为:,多类判别规则,若uh(x)= max u g(x) ,则判 x h , h=1, 2,G,先验概率的常用取法,1.先验概率取样品出现的频率:q g = n gn , g = 1, 2,G 2.认为总体以等概率
18、出现,即q g = 1G , g = 1, 2,G,距离判别、Fisher判别与 Bayes判别,当总体为等协方差的正态分布,且先验概率q g相等时,Bayes判别即为距离判别 在具有等协方差的两个正态总体的判别问题中,Bayes判别函数也是Fisher判别函数,逐步判别,变量的选择和逐步判别,变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果优劣的关键。 如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。 如果判别变量个数太多,计算量必然大,会影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。,逐步判别的步骤(1)
19、,第一步:通过计算单变量的统计量(组内离差平方和与总离差平方和的比),逐步选择判别变量统计量最小者首先进入模型。,逐步判别的步骤(2),第二步:分别计算未被选中的其它变量与选中变量x1的统计量统计量1i的值最小者与x1搭配进入模型。,逐步判别的步骤(3),第三步:类推假设已经有q1个变量进入了模型,要考虑较早选入模型的变量的重要性是否有较大的变化,应及时将其从模型中剔除。其原则与引入相同。但删除统计量的值最大者。第四步:进行判别分析。,判别分析的主要程序,1. 选择变量 和判别分析的目的密切相关 反映要判类变量的特征 在不同研究对象上的值有明显的差异2. 确定分析样本和验证样本 将样本分成两部
20、分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很大,可将样本平均地或随机地分成两部分,判别分析的主要程序,3. 用逐步判别法筛选变量 在第一步所选的变量可能在类间无差异,应该将对判别分析无贡献的变量剔除4. 估计判别函数 选择某种方法建立判别规则,有距离判别、贝叶斯判别和费歇(Fisher)判别法。,判别分析的主要程序,5. 检查判别的效果 计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。 所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。,检查判别效果的方法,自身验证 将用来建立判别函数的各样品代入判别函数中,看看错判情况是否严重。自身验证效果好,并不能说明该函数用来判别外部数据的效果也好,实用价值不是很大。 样本二分法 将样本随机分为两部分:分析样本和验证样本,一般比例2:1,要求样本容量较大,判别函数不稳定 交互验证(Cross validation) 在建立判别函数时依次去掉一例,然后用建立起的判别函数对该例进行判别,比较有效地避免异常点的干扰,