1、 多远统计上机作业 1指标的原始数据取自中国统计年鉴,1995和中国教育统计年鉴,1995除以各地区相应的人口数得到十项指标值见表1。其中::为每百万人口高等院校数;X:为每十万人口高等院校毕业生数;2:为每十万人口高等院校招生数;3:为每十万人口高等院校在校生数; X4:为每十万人口高等院校教职工数;5:为每十万人口高等院校专职教师数;X6:为高级职称占专职教师的比例; 7:为平均每所高等院校的在校生数;8:为国家财政预算内普通高教经费占X9国内生产总值的比重;:为生均教育经费。10表 1 我国各地区普通高等教育发展状况数据地区 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
2、北京 5.96 310 461 1557 931 319 44.36 2615 2.20 13631上海 3.39 234 308 1035 498 161 35.02 3052 .90 12665天津 2.35 157 229 713 295 109 38.40 3031 .86 9385陕西 1.35 81 111 364 150 58 30.45 2699 1.22 7881辽宁 1.50 88 128 421 144 58 34.30 2808 .54 7733吉林 1.67 86 120 370 153 58 33.53 2215 .76 7480黑龙江 1.17 63 93 296
3、 117 44 35.22 2528 .58 8570湖北 1.05 67 92 297 115 43 32.89 2835 .66 7262江苏 .95 64 94 287 102 39 31.54 3008 .39 7786广东 .69 39 71 205 61 24 34.50 2988 .37 11355四川 .56 40 57 177 61 23 32.62 3149 .55 7693山东 .57 58 64 181 57 22 32.95 3202 .28 6805甘肃 .71 42 62 190 66 26 28.13 2657 .73 7282湖南 .74 42 61 194
4、61 24 33.06 2618 .47 6477浙江 .86 42 71 204 66 26 29.94 2363 .25 7704新疆 1.29 47 73 265 114 46 25.93 2060 .37 5719福建 1.04 53 71 218 63 26 29.01 2099 .29 7106山西 .85 53 65 218 76 30 25.63 2555 .43 5580河北 .81 43 66 188 61 23 29.82 2313 .31 5704安徽 .59 35 47 146 46 20 32.83 2488 .33 5628云南 .66 36 40 130 44
5、19 28.55 1974 .48 9106江西 .77 43 63 194 67 23 28.81 2515 .34 4085海南 .70 33 51 165 47 18 27.34 2344 .28 7928内蒙古 .84 43 48 171 65 29 27.65 2032 .32 5581西藏 1.69 26 45 137 75 33 12.10 810 1.00 14199河南 .55 32 46 130 44 17 28.41 2341 .30 5714广西 .60 28 43 129 39 17 31.93 2146 .24 5139多远统计上机作业 2宁夏 1.39 48 62
6、 208 77 34 22.70 1500 .42 5377贵州 .64 23 32 93 37 16 28.12 1469 .34 5415青海 1.48 38 46 151 63 30 17.87 1024 .38 73683根据上面数据回答以下问题: (一) 计算 10 个变量的相关系数矩阵,并找出相关性最强的 5 组变量;1. 利用 SPSS 软件,依次选中 Analysis-correlate-bivariable,得结果整理得 1.0 .68 0.5 .1 0.62 . 0.61 .2 0.6 . 3788387 .5 . . . . .4 . .4 .35 . 37514 0.6
7、2 .8 0.2 . 1.0 . 0.9 . 0.9 . 4687 .1 . . . .9 . . . . .6 3815 0.6 .8 0.5 .1 0.7 . 0.9 . 1.0 .94 7465xyr2.其中:变量最强的 5 组变量: 和 , 和 , 和 , 和 及 和XX4X。 6X注:SPSS 运行结果见附件(一)(二) 对上面数据进行主成分分析,要求写出:a)方差分解表(特征值,累积贡献率) ;解答: sEigenvalu Itl 106.01947.8.2.3.09671458.212630.77550b)要求累积贡献率大于等于 85%,选取主成分个数,并用原始的 10 个变量表
8、示每个主成分;解答:n=2时,贡献率达到90.791%;原始的10个变量表示每个主成分 和 :1F20.453790.3780.1270.2460.3598 66236991471 XXXF 1.286.4.39.9.4 05-2 4c)计算每个省份相应的主成分值,并对主成分值进行标准化。【注: SPSS 运行结果见附录二】 (三) 利用 2)中的标准化后主成分值对 30 个省市进行聚类分析,要求,a)分别用系统聚类和快速聚类把 30 个省市分成 3 类,并比较这两种聚类结果异同(系统聚类给出你选择的聚类方法及谱系图)Rescaled Distance Cluster CombineC A S
9、 E 0 5 10 15 20 25Label Num +-+-+-+-+-+15 18 19 13 23 24 16 17 21 26 27 20 22 14 11 12 9 10 7 8 4 6 5 28 29 30 25 2 3 1 聚类情况:第一类:北京第二类:上海、天津第三类:其他北京 上海 天津 陕西 辽宁 吉林 黑龙江 湖北 江苏 广东 11.70 5.94 3.50 1.01 0.83 0.80 0.24 0.12 -0.16 -0.31 -0.89 0.10 1.03 0.03 0.88 -0.02 0.58 0.85 1.02 0.93 四川 山东 甘肃 湖南 浙江 新疆
10、福建 山西 河北 安徽 -0.70 -0.86 -0.74 -0.86 -0.98 -0.82 -0.96 -1.07 -1.22 -1.35 1.29 1.64 0.20 0.85 0.19 -0.51 -0.19 0.15 0.33 0.87云南 江西 海南 内蒙古 西藏 河南 广西 宁夏 贵州 青海-1.18 -1.36 -1.35 -1.40 -0.67 -1.64 -1.68 -1.27 -1.97 -1.60-0.65 0.65 -0.10 -0.23 -4.72 0.27 0.47 -1.48 -0.80 -2.75 5快速聚类法:Initial Cluster CentersC
11、luster1 2 3VAR00012 11.70 5.94 -.67VAR00013 -.89 .10 -4.72Cluster Membership Cluster MembershipCase NumberCase Number Cluster DistanceCase Number Cluster1 1 .000 16 3 .4982 2 1.307 17 3 .2553 2 1.307 18 3 .3244 3 1.795 19 3 .5515 3 1.843 20 3 1.0466 3 1.585 21 3 .7577 3 1.181 22 3 .8718 3 1.247 23 3
12、 .5749 3 1.199 24 3 .65410 3 1.055 25 3 4.70911 3 1.305 26 3 .90212 3 1.647 27 3 1.02013 3 .209 28 3 1.54614 3 .867 29 3 1.42815 3 .276 30 3 2.860Iteration HistoryaChange in Cluster CentersIteration 1 2 31 .000 3.147 4.6772 .000 .674 .0763 .000 1.249 .0694 .000 .000 .000a. Convergence achieved due t
13、o no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 4. The minimum distance between initial centers is 5.843.6(四) 利用 3)中快速聚类的结果及 2)标准化后主成分值进行判别分析,要求:a)检验 3类间的均值是否相等;b)检验 3 类间的自协方差阵是否相等(a,b 的结果要求给出原假设和检验结果) ;c)写出 fisher 和典型判
14、别准则;d)分别利用 c)的检验准则检验青海属于哪一类;e)给出检验判别准则的优劣。a)建立检验假设为: :三类均值相等 :三类均值不相等 0Hvs1HBetween-Subjects FactorsN1 12 2Cluster Number of Case3 27【SPSS运行结果】由Sig.值可以看到,无论从哪个统计量来看,三类都是与显著差异的,故拒绝原假设,认为三类均值不相等。b)建立检验假设为: :三类自协方差阵相等 :三类自协方差阵不相等0Hvs1HWarningsBoxs Test of Equality of Covariance Matrices is not computed
15、 because there are fewer than two nonsingular cell covariance matrices.c)fisher 判别准则:设 为第 i 个线性判别函数, (i=1,2,m) ,)(XYim12)(,i kiikxyGxd则 ,,n)(kjtdtG典型判别准则:Multivariate TestscEffect Value F Hypothesis df Error df Sig.Pillais Trace .894 1.092E2a 2.000 26.000 .000Wilks Lambda .106 1.092E2a 2.000 26.000
16、.000Hotellings Trace 8.404 1.092E2a 2.000 26.000 .000InterceptRoys Largest Root 8.404 1.092E2a 2.000 26.000 .000Pillais Trace .942 12.012 4.000 54.000 .000Wilks Lambda .085 31.675a 4.000 52.000 .000Hotellings Trace 10.499 65.616 4.000 50.000 .000QCL_1Roys Largest Root 10.469 1.413E2b 2.000 27.000 .0
17、00a. Exact statisticb. The statistic is an upper bound on F that yields a lower bound on the significance level.c. Design: Intercept + QCL_17d) (五)对 10 个变量使用主轴因子法进行因子分析,要求:a)写出因子载荷矩阵,并给出变量 X1 和因子间的关系; b)计算每个变量的共同度,并给出变量 1 被选取因子解释的比例;c )对因子进行方差最大化旋转,给出旋转后的因子载荷矩阵,并利用该矩阵对原始的 10 个变量进行分类,而且出没类变量的实际意义;d)计
18、算青海省的因子得分。a)因子载荷矩阵 (Component Matrixa) b)变量的共同度CMX1 0.979268X2 0.968138X3 0.985433X4 0.984353X5 0.978265X6 0.978757X7 0.91282X8 0.886165X9 0.823412X10 0.581184由上表【变量共同度】结果,变量X1和因子间的关系可表示为:= , = ,其余以次类推。1X20.48.95FX2043.1.98F变量1被选取因子解释的比例为97.9%.有旋转后的因子载荷矩阵可以看出,公共因子 F1 在 ( =1,2,3,4,5,6,9,10)上Xi的载荷值都很大
19、。通过变量的含义得出,F1 反映高校教育规模及教育发展水平和教育经费的Classification Function CoefficientsCluster Number of Case1 2 3VAR00012 16.748 6.612 -1.110VAR00013 -2.376 -.377 .116(Constant) -100.121 -16.594 -1.533Fishers linear discriminant functionsCanonical Discriminant Function CoefficientsFunction1 2VAR00012 1.191 .020VAR
20、00013 -.143 .778(Constant) .000 .000Unstandardized coefficients.360.724891.0.6487923.0.485CM8公共因子。公共因子 F2 在通过变量的含义得出,F1 反映高校教育规模及教育发展水平和教育经费的公共因子。公共因子 F2 在 , 上的载荷较大,是反7X8映高校高级职称占专职教师的比例和平均每所高等院校的在校生数的公共因子,有了对各个公共因子合理的解释,结合各个城市在两个公共因子上的得分和综合得分,就可以对各中心城市的教育发展水平进行评价了。d)青海省的因子得分-0.585, -2.188. 【SPSS 运行结
21、果参见附录三】 9附录一:Total Variance ExplainedInitial Eigenvalues Extraction Sums of Squared LoadingsComponent Total % of Variance Cumulative % Total % of Variance Cumulative %1 7.502 75.022 75.022 7.502 75.022 75.0222 1.577 15.770 90.791 1.577 15.770 90.7913 .536 5.362 96.154 .536 5.362 96.1544 .206 2.064 9
22、8.217 .206 2.064 98.2175 .145 1.450 99.667 .145 1.450 99.6676 .022 .222 99.8897 .007 .071 99.9608 .003 .027 99.9879 .001 .007 99.99410 .001 .006 100.000Extraction Method: Principal Component Analysis.10附录二:0.349766 -0.197490.358893 0.0342410.362179 0.0294640.362179 0.0135370.360353 -0.050960.359988
23、-0.06450.224171 0.5829020.120118 0.7023490.319097 -0.19430.245347 -0.28667Component MatrixaComponent1 2VAR00001 .958 -.248VAR00002 .983 .043VAR00003 .992 .037VAR00004 .992 .017VAR00005 .987 -.064VAR00006 .986 -.081VAR00007 .614 .732VAR00008 .329 .882VAR00009 .874 -.244VAR00010 .672 -.360Extraction M
24、ethod: Principal Component Analysis.北京 11.69813 -0.89249上海 5.940827 0.10456天津 3.497723 1.033453陕西 1.011522 0.034867辽宁 0.831027 0.881243吉林 0.802258 -0.01778黑龙江 0.242685 0.575936湖北 0.123196 0.847639江苏 -0.16291 1.016873广东 -0.31196 0.934719四川 -0.69914 1.293599山东 -0.85516 1.636627甘肃 -0.74098 0.195981湖南 -
25、0.86229 0.854615浙江 -0.97526 0.18827新疆 -0.82032 -0.50592福建 -0.95869 -0.19336山西 -1.06725 0.146585河北 -1.21695 0.330053安徽 -1.35138 0.86945云南 -1.18363 -0.6517江西 -1.35545 0.647022海南 -1.34968 -0.10134内蒙古 -1.39927 -0.22862西藏 -0.67102 -4.7168河南 -1.64038 0.271659广西 -1.68164 0.47225宁夏 -1.27242 -1.47553贵州 -1.96
26、944 -0.80274青海 -1.60216 -2.7491311附录三:a) 因子载荷矩阵:Component MatrixaComponent1 2VAR00001 .958 -.248VAR00002 .983 .043VAR00003 .992 .037VAR00004 .992 .017VAR00005 .987 -.064VAR00006 .986 -.081VAR00007 .614 .732VAR00008 .329 .882VAR00009 .874 -.244VAR00010 .672 -.360Extraction Method: Principal Component Analysis.a. 2 components extracted.b)变量的共同度:VAR00001 0.979268VAR00002 0.968138VAR00003 0.985433VAR00004 0.984353VAR00005 0.978265VAR00006 0.978757VAR00007 0.91282VAR00008 0.886165VAR00009 0.823412VAR00010 0.581184