1、SAS统计分析与应用学号:班级:姓名: 1目录一、摘要 .2二基本介 绍 .3(一) 研究目的: 3(二) 采用方法: 3(三) 理论知识: 3三、对数据的预处理 .7四运行结果及分析 .8(一) 主成分分析 8(二) 因子分析 9五、参考文献 11六、附录 122一、摘要SAS 系统是世界公认的权威性统计软件之一,是一个大型集成信息分析管理系统。本次论文是用 SAS 系统对 1999 年我国东部地区教育人力资源发展水平主要指标进行分析,采用的是北京,天津等省份教育人力资源主要指标(原始数据见附录) 。选出 17 个省的情况作为统计分析数据,其中分析的项目为:每百万人口学校数;每十万人口毕业生
2、数,每十万人口招生数,每十万人口在校生数,每十万人口研究生数,每十万人口教职工数,每十万人口专职教师数,高级教师占专职教师的比例,每所学校在校生数及生师比,依次用X1.,X2,X3,X4,X5,X6,X7,X8,X9,X10 表示。运用 SAS 软件,运用主成分分析和因子分析的方法对数据进行处理:1.对于所选取的统计数据进行简单描述统计分析,得出数据的平均值、数据标准差,最大值,最小值等。2.对于所选取的统计数据用 INSIGHT 模块做主成分分析和因子分析计算相关系数矩阵的特征值(Eigen value)、上下特征值之差(Difference)、各主成分的方差贡献率(Proportion)以
3、及累积贡献率(Cumulative)、简单统计量等,3 由相关系数矩阵的两个最大特征值的特征向量,可以写出第一、第二主成分的得分。从以上结论分析可以知道我国东部地区教育人力资源发展水平的主要指标,从而可以更好地帮助国家调整相关因素,使教育人力资源发展水平更加优越。关键字:SAS 软件 主成分分析 因子分析 相关系数矩阵 累积贡献率 相关系数矩阵的特征值 3二基本介绍(一) 研究目的:通过 SAS 软件的分析,对我国东部 17 个省份的教育人力资源发展水平的主要影响因素有一个大致的了解;有利于国家对教育资源的调控,从而可以促使全民教育更好的发展。(二) 采用方法:使用 insight 模块主成分
4、分析。使用 insight 模块因子分析。(三) 理论知识:2.3.1 主成分分析的基本思想主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变
5、量记为 1F,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望 )(1Var越大,表示 1F包含的信息越多。因此在所有的线性组合中所选取的 1应该是方差最大的,故称 为第一主成分。如果第一主成分不足以代表原来 p个变量的信息,再考虑选取 2即第二个线性组合,为了有效地反映原来信息, 1F已有的信息就不需要再出现在 F中,用数学语言表达就是要求0),(2Cov,称 2为第二主成分,依此类推可以构造出第三、四第 p个主成分。2.3.2 主成分分析的数学模型对于一个样本资料,观测 p个变量 px,21, n个样品的数据资料阵为:4npnpxxX 212112px,21其中:j
6、xnjjj ,2主成分分析就是将 p个观测变量综合成为 p个新的变量(综合变量) ,即ppp pxaxaF 21221211简写为:pjjjj 21 pj,21要求模型满足以下条件: jiF,互不相关( ji, i,) 1的方差大于 2的方差大于 3F的方差,依次类推 .,212 pkaakpk 于是,称 1F为第一主成分, 2为第二主成分,依此类推,有第 p个主成分。主成分又叫主分量。这里 ij我们称为主成分系数。上述模型可用矩阵表示为: AX,其中pF21px21ppppaaA 21212112A称为主成分系数矩阵。主成分分析的计算步骤:样本观测数据矩阵为:5npnpxxX 212112第
7、一步:对原始数据进行标准化处理。)var(*jijijx),;,ji 其中 nijjx121)()var(jniijj ),21(pj第二步:计算样本相关系数矩阵。 ppprrrrR 212112为方便,假定原始数据标准化后仍用 表示,则经标准化处理后的数据的相X关系数为: tjntiij xr1 ),21,(pji第三步:用雅克比方法求相关系数矩阵 的特征值( )和相应的特Rp21,征向量 。piaapii 2,21第四步:选择重要的主成分,并写出主成分表达式。主成分分析可以得到 个主成分,但是,由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取 个主成分,而
8、是根p据各个主成分累计贡献率的大小选取前 个主成分,这里贡献率就是指某个主成k分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。即贡献率= pii16贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数 的k选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到 85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。另外,在实际应用中,选择了重要的主成分后,还要注意主成分实际含义解释。主成分分析中一个很关键的问题是如何给主成分赋予新的意义,给出合理的解释。一般而言,这个解释是根据主成分表达式的系数结合定性分析来进行的。主成分是原来变量的线性组合,
9、在这个线性组合中个变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的实际意义,这要结合具体实际问题和专业,给出恰当的解释,进而才能达到深刻分析的目的。第五步:计算主成分得分。根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下。 nknkF 212112第六步:依据主成分得分的数据,则可以进行进一步的统计分析。
10、其中,常见的应用有主成份回归,变量子集合的选择,综合评价等。7三、对数据的预处理1、将数据(见附录) 导入逻辑库 Sasuser,由定义数据集名为 Xuqian。2、建成的数据集如下:region x1 x2 x3 x4 x5 x6 x7 x8 x9 x10北京 5.09 400 624 1871 3987 861 280 0.49 3674 7.71天津 2.19 201 330 943 760 269 101 0.47 4307 9.91河北 0.73 60 110 67 70 65 26 0.34 3681 9.82辽宁 1.53 120 211 565 272 143 60 0.4 3
11、685 10.38吉林 1.5 114 197 525 323 144 57 0.38 2617 7.43黑龙江 1.03 80 165 414 223 112 42 0.5 4027 10.56上海 2.78 273 429 1263 1656 409 136 0.45 4544 10.05江苏 1 85 176 457 252 104 42 0.39 581 11.69浙江 0.8 59 118 309 166 68 29 0.38 3849 11.1安徽 0.59 37 83 213 72 44 20 0.36 3595 10.36福建 0.9 62 117 309 118 63 27
12、0.34 3419 11.85江西 0.8 59 103 262 37 60 24 0.37 3261 11.8山东 0.59 56 93 242 73 56 24 0.42 4109 10.68河南 0.6 42 84 197 25 46 20 0.33 3312 11.25湖北 0.96 83 162 434 329 119 47 0.4 4524 10.04湖南 0.78 60 118 296 85 65 27 0.38 3795 10.83广东 0.69 66 117 304 132 61 25 0.39 4416 11.618四运行结果及分析(一) 主成分分析1. 使用 INSIGH
13、T 模块做主成分分析的步骤2. 主成分的结果分析输出的数字分析结果有 4 个部分:单变量统计量(简单统计量) 、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。1) 各变量的简单统计量2) 各变量见相关系数矩阵上图给出了各变量之间的相关系数矩阵。可以看出,每百万人口学校数与每十万人口毕业生数、每十万人口招生数、每十万人口在校生数、每十万人口研究生数、每十万人口教职工数、每十万人口专职教师数之间的相关系数均为 0.97 以上,呈现非常强的相关性。3) 相关系数矩阵的特征值相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分的方差贡献率为 78.30%,两个主成分的累积贡献率已
14、达 88.78%,因此,只需用前两个主成分就可以概括这组数据。4) 相关系数矩阵的特征向量9上图给出相关系数矩阵的全部特征值的特征向量,据此可以写出第一和第二主成分得分: Prin1=0.3549x*+0.3567x2*0.354x*+0.3524x*0.3678x5* 498769-1ri2-.71-.-.-.1.2 0683x*06273x*0429x*034x*0763x*相对系数的绝对值越大,说明 该主成分受指标的影响就越大。因此,从以上数据可以得出,对于第一主成分而言,除了 x9 外,各变量所占比重均在 0.3左右,因此第一成分主要由 x1x8、x10 这九个变量解释;而决定第二主成
15、分Prin2 大小的主要是 x8、x9。也就是说,对于东部地区而言,影响教育人力资源发展有诸多方面的因素,其次是高级教师人数和学生人数。(二) 因子分析1. 使用 INSIGHT 模块做因子分析的步骤2. 因子分析的结果分析1) 求相关系数阵及其特征值结果显示,前三个特征值的方差贡献率依次为:0.7830、0.1048、0.0597。102) 建立因子载荷阵由于前三个特征值的累积贡献率已达 94.75%,故取前三个特征值建立因子载荷。由于第一、二公因子的载荷中有一些数值在 0.5 附近的中等载荷,其意义含糊不清,故考虑做因子旋转。3) 因子旋转从旋转后的因子模型(即因子载荷阵)中可以看出,相对
16、于旋转前的因子模型,第一个公因子在 x5、x7 指标上的载荷减少,而在 x9、x10 上的载荷明显增加。公因子一的载荷有正有负,正载荷主要是 x1、x3,它们是教育环境的显示;负载荷主要是 x10,它是教育师资的显示。第二个公因子在 x2、x4 载荷明显增加,是在校学生人数的显示。第三个公因子中 x1、x2、x3、x5、x6、x7 明显减少,是总体教育素质的显示。11五、参考文献1汪远征主编.SAS 软件与统计应用教程.机械工业出版社 .20122何宁.统计分析系统 SAS.武汉大学.20053何平.数理统计与多元统计 成都 西南交通大学出版社 20044连玉明.2004 中国数字报告 中国时
17、代经济出版社 200412六、附录下表中数据反映了 1999 年我国东部地区教育人力资源发展水平的相关数据。a1:每百万人口学校数;a2 :每十万人口毕业生数 a3:每十万人口招生数、a4:每十万人口在校生数、a5:每十万人口研究生数、 a6:每十万人口教职工数、a7:每十万人口专职教师数 a8:高级教师占专职教师的比例、 a9:每所学校在校生数、a10:生师比。用软件软件的若干方法分析东部地区的教育人力资源发展情况。region A1 A2 A3 A4 A5 A6 A7 A8 A9 A10北京 5.09 400 624 1871 3987 861 280 0.49 3674 7.71天津 2
18、.19 201 330 943 760 269 101 0.47 4307 9.91河北 0.73 60 110 67 70 65 26 0.34 3681 9.82辽宁 1.53 120 211 565 272 143 60 0.4 3685 10.38吉林 1.5 114 197 525 323 144 57 0.38 2617 7.43黑龙江 1.03 80 165 414 223 112 42 0.5 4027 10.56上海 2.78 273 429 1263 1656 409 136 0.45 4544 10.05江苏 1 85 176 457 252 104 42 0.39 58
19、1 11.69浙江 0.8 59 118 309 166 68 29 0.38 3849 11.1安徽 0.59 37 83 213 72 44 20 0.36 3595 10.36福建 0.9 62 117 309 118 63 27 0.34 3419 11.85江西 0.8 59 103 262 37 60 24 0.37 3261 11.8山东 0.59 56 93 242 73 56 24 0.42 4109 10.68河南 0.6 42 84 197 25 46 20 0.33 3312 11.25湖北 0.96 83 162 434 329 119 47 0.4 4524 10.04湖南 0.78 60 118 296 85 65 27 0.38 3795 10.83广东 0.69 66 117 304 132 61 25 0.39 4416 11.61联系电话:15212229248