1、贝叶斯判别&逐步判别分析,金融数学班 夏孟琪 ,一、实验目的及要求:,1、目的用SPSS软件实现判别分析及其应用。2、内容及要求用SPSS对实验数据利用贝叶斯判别法和逐步判别法,建立判别函数并判定30个省市自治区1994年的影响各地区经济增长差异的制度变量分属哪个组别。,二、仪器用具:,三、实验方法与步骤:,准备工作:把实验所用数据输入到SPSS数据文件中,同时,由于只有当被解释变量是属性变量而解释变量是度量变量时,判别分析才适用,所以将4个变量的变量类型改为“数值(N)”,度量标准改为“度量(S)”,以备接下来的分析。,题目,对全国30个省市自治区1994年影响各地区经济增长差异的制度变量
2、x1经济增长率(%) x2非国有化水平(%) x3开放度(%) x4市场化程度(%) 作判别分析,书P166-例6.8,贝叶斯判别,四、实验结果与数据处理:,对各组均值是否相等的检验,由该表可以看出,在0.05的显著性水平上我们认为所有四个在两组的均值是有显著差异的。,以上是对各组协方差矩阵是否相等的BoxM检验,左表反映协方差矩阵的秩和行列式的对数值。由行列式的值可以看出,协方差矩阵不是病态矩阵。右表是对各总体协方差阵是否相等的统计检验,由F值及其显著水平,在0.05的显著性水平下拒绝原假设,认为各总体协方差阵不相等。,反映了判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了
3、100%的方差。,是对判别函数的显著性检验,由WilksLambda检验,认为判别函数在0.05的显著性水平上是显著的。,各组的先验概率,在分组选项中选择的是“根据组大小计算”,所以先验概率不相同。,每组的分类函数,也称费歇线性判别函数,由表中的结果可以说明:这两组的分类函数为: f1=1.813x1-0.337x2-0.058x3+1.380x4-54.779 f2=1.669x1-0.377x2-0.119x3+1.188x4-36.584,将每个城市的数据分别带入两个两个函数中,分类到结果大的组中,有一个被误判为第二组,实际为第一组,待判的三个城市 分别被判为 第一组 第二组 第二组,逐
4、步判别法是采用“有进有出“的算法,即逐步引入变量,每引入一个”最重要“的变量进入判别式,同时也考虑较早引入判别式的某些变量,是否因为变得不显著了,而及时剔除。这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量,在贝叶斯判别中加入逐步判别,系统默认值,引入x4,在逐步计算中,每部都是先考虑剔除的,后考虑引入,但开头几步一般都是先引入,而后才开始有剔除,实际问题中引入后又提出的情况不多,而剔除后再重新引入的情况更少见。,f1=1.1157x4-43.924f2=0.905x4-26.801,引入x4,引入x3,不剔除x4,都不引入,f1=0.077x3+1.147x4-44.5
5、14f2=0.008x3+0.903x4-26.808,对比一下不同的F值导致的结果,综上,我认为取下方的F值作判别更加准确,比较贝叶斯判别和逐步判别的回代判对率,两者的分类结果是相同的 同样都是把第十个地区错判为第二组,五、讨论与结论,在使用逐步判别这个方法的时候有一点必须要注意,即F值的选取。刚才比较了两种不同F值导致的不同结果。F选取不合适,会导致过多变量被剔除,以至于结果不准确。F选取不合适,会影响分组的判别,导致错判的案例的增加。因此,在选取F值时,应当多选取一些F值,比较得到的结果,最终找出最合适的F值。,之前的分析是采用“一起输入自变量”的方法,考虑“使用步进式方法”,最终确定进
6、入分析的变量有2个:x3和x4,即市场化程度和开放度,上表给出了最终的分类结果,可以看出,在原有数据的所有城市中,有96.3%的城市被判对,。同“一起输入自变量”时的效果一致,在最终对待判城市的分组问题上,两种方法所得到的结果也是一致的,在这里两种方法的选择对我们所需要的结果影响不是很大!但是取得相同的结果,我们加入逐步判别法之后,用于计算的变量由四个缩减为两个,减少了运算,所以可见逐步判别法还是很好的。这个例题的变量只有四个,所以在分析是否加入逐步判别后的影响不会太大。而实际中,变量会很多,加入逐步判别后会更加方便,节省人力物力。,因此,计算结果表明,影响各地区经济增长差异的制度变量主要是:市场化程度(x4)和开放度(x3),其回判的结果与实际是相符的。,thanks,金融数学班 夏孟琪 ,