1、5 变量选择和逐步判别,变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量个数太多,计算量必然大,会影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。,中小企业的破产模型为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为“1”和21个正常运行企业“2”进行了调查,得资
2、料如下。如果这些指标是用来做判别分析和聚类分析的变量,他们之间没有显著性差异是不恰当的,所以检验所选择的指标在不同类型企业之间是否有显著的差异。,x1,x2,x3,x4均为判别变量,x1, x3为判别变量,Dependent Variable: x1 (对X1进行的检验)Sum ofSource DF Squares Mean Square F Value Pr FModel 1 0.87466791 0.87466791 16.90 0.0002Error 36 1.86300840 0.05175023Corrected Total 37 2.73767632 X1在类间有显著性差异。,D
3、ependent Variable: x2 (对X2进行的检验)Sum ofSource DF Squares Mean Square F Value Pr FModel 1 0.08312077 0.08312077 1.95 0.1710Error 36 1.53370028 0.04260279Corrected Total 37 1.61682105 X2在类间没有显著性差异。,多元假设检验Statistic Value F Value Num DF Den DF Pr FWilks Lambda 0.54561620 6.87 4 33 0.0004Pillais Trace 0.4
4、5438380 6.87 4 33 0.0004Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004Roys Greatest Root 0.83279015 6.87 4 33 0.0004,Pillais Trace,设有n样品,分别来自 k个类G1,G2,Gk其中ni个来自Gi,,(一)变量组间差异的显著检验,样品分别为:,即,p个指标对G1,G2,Gk无区别能力;,p个指标对G1,G2,Gk有区别能力。,当比值很小,类内的离差平方和在总离差平方和中所占比率小,则类间的离差平方和所占比重大。在原假设为真的条件下, 服从维尔克斯分布,即 p个
5、指标对G1,G2,Gk有较强的区别能力。,(二)附加信息的检验,在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某个判别分析问题中,将其中最主要的指标忽略了。判别效果一定不会好。但是在许多问题中,事先并不知道那些是主要的指标。因此筛选变量的问题就成了非常重要的了。从而产生了逐步判别法,而逐步判别法的基础是附加信息的检验。,向前法;向后法;逐步筛选法 。,逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。,设判别函数中已经有q个
6、变量,要检验某个变量xj对判别效果的贡献,或者说变量对判别是否有附加的信息。H0: xj判别分析没有附加的信息 H1: xj对判别分析有附加的信息,将q+1个变量构成的离差矩阵分块,利用分块矩阵的行列式的性质有:,它是在给定了q个指标的条件下,第q+1个指标的 附加信息量的度量,该统计量服从维尔克斯分布,该统计量服从F(k-1,n-p-k)分布,当F很大时,则 拒绝原假设,第q+1个指标有附加信息,要引入该变量; 否则,接受原假设。,剔除变量 对于判别函数中已有的q1个变量 ,是否有对判别能力贡献不显著的变量存在,则应该将其从判别函数中删除。 H0: xk对判别分析贡献不显著,即应该剔除; H
7、1: xk对判别分析贡献显著,即应该保留;,检验的统计量,步骤, 第一步:通过计算单变量的统计量,逐步选择判别变量,统计量最小者首先进入模型。, 第二步:分别计算未被选中的其它变量与选中变量x1的统计量,,统计量1i得值最小者与x1搭配进入模型。, 第三步:类推假设已经有q1个变量进入了模型,要考虑较早选入模型的变量的重要性是否有较大的变化,应及时将其从模型中剔除。其原则与引入相同。在所有检验不显著的变量中,将统计量得值最大者或F最小者先剔除。, 第四步:进行判别分析。,The STEPDISC Procedure(逐步判别过程)The Method for Selecting Variabl
8、es is STEPWISEObservations 38 Variable(s) in the Analysis 4Class Levels 2 Variable(s) will be Included 0Significance Level to Enter 0.15Significance Level to Stay 0.15Class Level InformationVariableclass Name Frequency Weight Proportion1 _1 17 17.0000 0.4473682 _2 21 21.0000 0.552632,Stepwise Select
9、ion: Step 1(第一步)Statistics for Entry, DF = 1, 36Variable R-Square F Value Pr F Tolerancex1 0.3195 16.90 0.0002 1.0000x2 0.0514 1.95 0.1710 1.0000x3 0.3734 21.45 FWilks Lambda 0.626628 21.45 1 36 .0001Pillais Trace 0.373372 21.45 1 36 .0001,Stepwise Selection: Step 2(第二步)Statistics for Removal, DF =
10、1, 36Variable R-Square F Value Pr Fx3 0.3734 21.45 F Tolerancex1 0.1070 4.19 0.0482 0.6638x2 0.0094 0.33 0.5672 0.9379x4 0.0172 0.61 0.4386 0.9546Variable x1 will be entered.(X1进入),Stepwise Selection: Step 3(第三步)Statistics for Removal, DF = 1, 35PartialVariable R-Square F Value Pr Fx1 0.1070 4.19 0.
11、0482x3 0.1777 7.56 0.0094No variables can be removed.Statistics for Entry, DF = 1, 34PartialVariable R-Square F Value Pr F Tolerancex2 0.0196 0.68 0.4154 0.4120x4 0.0057 0.20 0.6614 0.6119No variables can be entered.(无变量能进入)No further steps are possible. (进一步是不可能的),Linear Discriminant Function for c
12、lass线性判别函数Variable 1 2Constant -2.45595 -5.25152x3 2.18098 3.52968x1 -4.55096 -0.52018,Number of Observations and Percent Classified into classFrom class 1 2 Total1 14 3 1782.35 17.65 100.002 3 18 2114.29 85.71 100.00Total 17 21 3844.74 55.26 100.00Priors 0.44737 0.55263,Error Count Estimates for cl
13、ass1 2 TotalRate 0.1765 0.1429 0.1579Priors 0.4474 0.5526,Number of Observations and Percent Classified into classFrom class 1 2 Total1 14 3 1782.35 17.65 100.002 4 17 2119.05 80.95 100.00Total 18 20 3847.37 52.63 100.00Priors 0.44737 0.55263Error Count Estimates for class1 2 TotalRate 0.1765 0.1905 0.1842Priors 0.4474 0.5526,Posterior Probability of Membership in classClassifiedObs into class 1 21 1 0.6482 0.35182 1 0.7667 0.23333 1 0.6605 0.33954 1 0.8029 0.19715 2 0.3065 0.69356 2 0.2759 0.72417 2 0.2984 0.70168 2 0.0742 0.9258,