1、学号: 班级: 姓名: 实验八 主成分分析 一、实验目的和要求 能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别;能根据 SAS 输出结果选出满足要求的几个主成分实验要求:编写程序,结果分析实验内容: 1.何为主成分?主成分的求法、性质?主成分个数选取的依据?主成分定义: ppTp kkkk pT XaXaYaa 211211满足:(1)系数向量单位化 ;1kT(2)各主成分不相关,无重叠信息 , ;0),(kTjkjYCovakj(3)主成分方差由此递减 )(V)V21 prarr步骤:1)解 ,求 的 p 个特征值 ;0|I 021p2
2、)对应的正交单位化的特征向量分别为 ;me,其中 ,pk, Tkpkke),(21e3) 的第 个主成分为X;pkkkTk XY21为 个主成分构成的随机向量,则 ,其中p),(21 XPYT为正交矩阵,Pe且 kjYCovVarkTjkTjkj 0),( ,21e故主成分向量 的协方差阵为pTv21)()PX学号: 班级: 姓名: 各主成分的总方差pkkpkpkpk XVartrYVar1111 )()()(4)主成分的贡献率与累计贡献率第 k个主成分的贡献率pjkP1/它反映了第 k个主成分提取全部信息的多少前k个主成分的累积贡献率pjj1/它反映了前k个主成分共同提取全部信息的多少性质:
3、(1)系数向量单位化 ;1kTa(2)各主成分不相关,无重叠信息 , ;0),(kTjkjYCovakj(3)主成分方差由此递减 )(V)V21 prarr依据:正交单位化特征向量第 K 个主成分可以记为: pkkkTk XeeXY21e2.利用样品求主成分的步骤?1)求样本协方差矩阵 特征值 ; S021p2)相应的正交单位化特征向量 , ; e, ),(21kpkke3)第 个样本主成分k, pkkTxexey21 ,4) 第 k个样本主成分的贡献率pkpjk/1前k个主成分的累积贡献率jpjj /11学号: 班级: 姓名: 5)第 个样本主成分的 个观测值称为第 个样本主成分的得分,可以
4、依据得分对各knk组样本观测数据进行排序:( )ipkikikiTik xexey21xe n,21样本主成分的观测数据(得分向量) ),21(),( niyTipii y3.书上 4.5 4.64.5(1)程序如下:data examp4_5 ; input id x1-x8; cards;1 8.35 23.53 7.51 8.62 17.42 10.00 1.04 11.212 9.25 23.75 6.61 9.19 17.77 10.48 1.72 10.513 8.19 30.50 4.72 9.78 16.28 7.60 2.52 10.324 7.73 29.20 5.42 9
5、.43 19.29 8.49 2.52 10.005 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.766 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.357 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81 8 9.09 28.12 7.40 9.62 17.26 11.12 2.49 12.659 9.41 28.20 5.77 10.80 16.36 11.56 1.53 12.1710 8.70 28.12 7.21 10.53 19.45 13.30 1.66 11.9611
6、 6.93 29.85 4.54 9.49 16.62 10.65 1.88 13.6112 8.67 36.05 7.31 7.75 16.67 11.68 2.38 12.8813 9.98 37.69 7.01 8.94 16.15 11.08 0.83 11.6714 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.2315 8.14 37.75 9.61 8.49 13.15 9.76 1.28 11.2816 7.67 35.71 8.04 8.31 15.13 7.76 1.41 13.2517 7.90 39.77 8.49 12.94 19.
7、27 11.05 2.04 13.2918 7.18 40.91 7.32 8.94 17.60 12.75 1.14 14.8019 8.82 33.70 7.59 10.98 18.82 14.73 1.78 10.1020 6.25 35.02 4.72 6.28 10.03 7.15 1.93 10.3921 10.60 52.41 7.70 9.98 12.53 11.70 2.31 14.6922 7.27 52.65 3.84 9.16 13.03 15.26 1.98 14.5723 13.45 55.85 5.50 7.45 9.55 9.52 2.21 16.3024 10
8、.85 44.68 7.32 14.51 17.13 12.08 1.26 11.57学号: 班级: 姓名: 25 7.21 45.79 7.66 10.36 16.56 12.86 2.25 11.6926 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.8727 7.78 48.44 8.00 20.51 22.12 15.73 1.15 16.6128 7.94 39.65 20.97 20.82 22.52 12.41 1.75 7.9029 8.28 64.34 8.00 22.22 20.06 15.12 0.72 22.8930 12.47
9、76.39 5.52 11.24 14.52 22.00 5.46 25.50;run;proc princomp data=examp4_5 prefix=y out=bb; ; var x1-x8; run;proc print data=bb; run;结果如下:相关系数矩阵 R 为(2)样本相关系数矩阵R的特征值、各主成分贡献率及累计贡献率学号: 班级: 姓名: 贡献率 累计贡献率(3)程序如下:proc plot data=bb; plot y2*y1 $ id=*;proc sort data=bb; by descending y1; run;proc print data=bb
10、; var id y1 y2 x1-x8;run;样本相关系数矩阵R特征值的正交化特征向量按第一主成分对各省份进行排序学号: 班级: 姓名: 由输出结果可以看出:前两个主成分的累计贡献率已达68.29%,因此,取前两个主成分做进一步分析即可给出了对应于 和 的正交单位化特征向量*12和 ,由此得到标准化指标的前两个样本主成分为*1e212345678049650182074903159x*Tyxxxx为8个指标加权平均,反映各省份在生活基本消费的消费水平能力的综合指标 值大,则各省份的生活水平越低,*12123456780476045807013401ex*Tyxxxx反映各省份在生活消费品德
11、消费能力综合指标, 值大,则各省份的消费2*y水平越高。第一主成分样本得分降序排列依次为:广东 上海 北京 浙江 海南 福建 广西 天津 江苏 辽宁 西藏 四川 山东 湖北 河北 宁夏 湖南 陕西 云南 新疆 青海 安徽 甘肃 内蒙古 贵州 吉林 黑龙江 河南 山西 江西 。4.6程序如下:data examp4_6 ; input id x1-x3 y1-y3; cards;1 60 69 62 97 69 98学号: 班级: 姓名: 2 56 53 84 103 78 1073 80 69 76 66 99 1304 55 80 90 80 85 1145 62 75 68 116 130
12、 916 74 64 70 109 101 1037 64 71 66 77 102 1308 73 70 64 115 110 1099 68 67 75 76 85 11910 69 82 74 72 133 12711 60 67 61 130 134 12112 70 74 78 150 158 10013 66 74 78 150 131 14214 83 70 74 99 98 10515 68 66 90 119 85 10916 78 63 75 164 98 13817 103 77 77 160 117 12118 77 68 74 144 71 15319 66 77 6
13、8 77 82 8920 70 70 72 114 93 12221 75 65 71 77 70 10922 91 74 93 118 115 15023 66 75 73 170 147 12124 75 82 76 153 132 11525 74 71 66 143 105 10026 76 70 64 114 113 12927 74 90 86 73 106 11628 74 77 80 116 81 7729 67 71 69 63 87 7030 78 75 80 105 132 8031 64 66 71 83 94 13332 71 80 76 81 87 8633 63
14、75 73 120 89 5934 90 103 74 107 109 10135 60 76 61 99 111 9836 48 77 75 113 124 9737 66 93 97 136 112 12238 74 70 76 109 88 10539 60 74 71 72 90 7140 63 75 66 130 101 9041 66 80 86 130 117 14442 77 67 74 83 92 10743 70 67 100 150 142 14644 73 76 81 119 120 11945 78 90 77 122 155 149学号: 班级: 姓名: 46 73
15、 68 80 102 90 12247 72 83 68 104 69 9648 65 60 70 119 94 8949 52 70 76 92 94 100;run;proc princomp data=examp4_6 prefix=y out=bb; ; var x1-x3 y1-y3; run;proc print data=bb; run;proc princomp cov data=examp4_6; var x1-x3 y1-y3; run;相关系数矩阵 R:相关系数矩阵R的特征值、各主成分贡献率及累计贡献率样本协方差矩阵S按特征值排序的正交化特征向量学号: 班级: 姓名: 协
16、方差矩阵 S:样本协方差矩阵S的特征值、各主成分贡献率及累计贡献率样本协方差矩阵S按特征值排序的正交化特征向量结果分析由输出结果可以看出:从协方差阵出发进行主成分分析,前三个主成分的累计贡献率已达89.38%,因此,取前三个主成分做进一步分析即可给出了正交单位化特征向量,由此得到标准化指标的前三个样本主成分为 1123123080347058203485ex*Tyxyy反映各位女生在三个不同时刻下空腹与摄入等量食糖后血糖化,在空腹时,不同时刻由于身体内的调节,血糖变化不大,在摄入糖以后,第一个时刻血糖浓度增大。即 大,摄入糖以后,血糖增大。*1y21 2312309430104505987ex
17、*Tyxyy反映各位女生在三个不同时刻下空腹与摄入等量食糖后血糖化,在空腹时,不同时刻由于身体内的调节,血糖变化不大,在摄入糖以后,第三个时刻血糖学号: 班级: 姓名: 浓度增大。即 大,摄入糖以后,血糖最大。*2y311231230840531890462834019ex*Tyxxyy反映各位女生在三个不同时刻下空腹与摄入等量食糖后血糖化,在空腹时,不同时刻由于身体内的调节,血糖变化不大,在摄入糖以后,第三个时刻血糖浓度由于身体调节血糖减少。即 大,摄入糖以后随着时间的增加,血糖减少。*3y由输出结果可以看出:从相关系数矩阵出发进行主成分分析,前四个主成分的累计贡献率已达84.59%,因此,
18、取前四个主成分做进一步分析即可给出了正交单位化特征向量,由此得到标准化指标的前四个样本主成分为 112312303468061496046ex*Tyxyy2873525898*311231235970e*T40306406065 x*yxyy由相关系数矩阵看出,各变量之间差距很大,而且提取的主成分可以看出,实验效果有差距。所以基于 S 的分析结果更为合理。选做下面的题目之一:(1)下表为山东省 2006 年统计数据,对此做主成分分析,找出主成分,并按第一、第二主成分对山东省各城市进行综合排名,说明排名结果。表 1 山东省 2006 年统计数据单位: 万元地 区 地区生产总值 第一产业增加值 第
19、二产业增加值 # 工业增加值 第三产业增加值 济南市 2185.09 145.12 1001.78 861.51 1038.19 学号: 班级: 姓名: 青岛市 3206.58 183.95 1677.17 1527.49 1345.46 淄博市 1645.16 62.72 1079.06 1003.00 503.38 枣庄市 759.95 68.48 482.82 445.72 208.65 东营市 1450.31 53.27 1170.13 1115.03 226.91 烟台市 2405.75 216.01 1462.24 1336.26 727.49 潍坊市 1720.88 211.81
20、 1000.63 916.51 508.44 济宁市 1456.09 187.06 803.44 740.97 465.59 泰安市 1018.18 116.28 572.22 503.54 329.68 威海市 1368.53 116.58 849.59 793.12 402.36 日照市 505.87 73.89 251.56 220.07 180.42 莱芜市 291.98 19.55 192.40 180.59 80.03 临沂市 1404.86 178.65 730.83 633.20 495.38 德州市 1003.38 140.73 559.51 504.00 303.14 聊城
21、市 841.33 138.84 491.96 453.46 210.54 滨州市 833.67 97.21 514.82 471.75 221.63 菏泽市 539.60 166.44 247.72 209.63 125.44 单位: 各方面的支出(万元) 地 区 流通部门 文体广播 教育支出 科学支出 医疗卫生 其他部门的事业费济 南 市 1129 31240 175935 3737 70572 35800 青 岛 市 3511 63853 401744 3925 68999 134510 淄 博 市 1861 27436 190130 6701 43723 31362 枣 庄 市 2711
22、 20856 83353 1544 24768 25433 东 营 市 1127 16566 114045 2016 23907 27969 烟 台 市 216 30788 220599 3634 49379 60217 潍 坊 市 977 36484 252298 2974 37211 43285 济 宁 市 2174 46338 204464 2858 43159 46694 泰 安 市 1382 19672 103466 2358 36980 24055 威 海 市 717 18468 120004 1266 29562 37796 日 照 市 70 10814 58024 1098 1
23、6571 15238 莱 芜 市 388 7588 49980 676 13010 10942 临 沂 市 4475 39946 194380 2777 51723 34332 德 州 市 1415 20080 100432 2777 31442 16555 聊 城 市 3677 26234 103399 2352 27636 13616 滨 州 市 759 17096 100284 1062 24930 19961 菏 泽 市 413 31410 125664 1152 33193 16170 12-9 各市农林牧渔业总产值(2006 年) 单位:万元 地区农林牧 农业产值 林业产值 牧业产
24、值 渔业产值 农林牧渔服务业产值 学号: 班级: 姓名: 渔业总产值 济 南 市 2477193 1479799 64385 848623 28902 55484 青 岛 市 3396096 1360755 23546 1076254 855131 80410 淄 博 市 1160195 766074 52589 294504 19835 27193 枣 庄 市 1278410 831435 32985 347404 30842 35744 东 营 市 1045593 477566 11371 264438 216534 75684 烟 台 市 3832237 1795414 45611 67
25、9950 1238827 72435 潍 坊 市 4230441 2392085 43644 1437142 240827 116743 济 宁 市 3680065 1993193 69607 1229986 267302 119977 泰 安 市 2062840 1236797 64195 622845 76841 62162 威 海 市 2186326 465164 6216 337948 1352551 24447 日 照 市 1286840 550601 36468 261814 398981 38976 莱 芜 市 353735 224665 21764 91013 5519 107
26、74 临 沂 市 3233487 2016291 153830 908942 79723 74701 德 州 市 2661008 1562942 37421 844453 67174 149018 聊 城 市 2470609 1638065 34141 710461 45450 42492 滨 州 市 1803325 1076124 23910 424643 230605 48043 菏 泽 市 2983624 1993394 64882 802778 76574 45996 (2)调查美国 50 个州 7 种犯罪率,得结果列于 表 35.2,其中给出的是美国 50 个州每 100 000 个
27、人中七种犯罪的比率数据这七种犯罪是: murder(杀人罪) , rape(强奸罪) ,robbery(抢劫罪) , assault(斗殴罪) , burglary(夜盗罪) , larceny(偷盗罪) ,auto(汽车犯罪) ,很难直接从这七个变量出发来评价各州的治安和犯罪情况,试作主成份分析说明选几个主成分合适,找出几个主成分,并按照第一、第二主成分分别对 50 个周进行排名,并解释之。表 1 美国 50 个州七种犯罪的比率数据state州Murder 杀人罪rape强奸罪robbery抢劫罪assault斗殴罪burglary夜盗罪larceny偷盗罪auto汽车犯罪ALABAMA 1
28、4.2 25.2 96.8 278.3 1135.5 1881.9 280.7ALASKA 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3ARIZONA 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5ARKANSAS 8.8 27.6 83.2 203.4 972.6 1862.1 183.4CALIFORNIA 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5COLORADO 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1CONNECTICUT 4.2 16
29、.8 129.5 131.8 1346.0 2620.7 593.2DELAWARE 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0FLORIDA 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4GEORGIA 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9HAWAII 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4IDAHO 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6ILLINOIS 9.9 21.8 211.3 209.
30、0 1085.0 2828.5 528.6INDIANA 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4IOWA 2.3 10.6 41.2 89.8 812.5 2685.1 219.9学号: 班级: 姓名: KANSAS 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3KENTUCKY 10.1 19.1 81.1 123.3 872.2 1662.1 245.4LOUISIANA 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7MAINE 2.4 13.5 38.7 170.0 1253.
31、1 2350.7 246.9MARYLAND 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5MASSACHUSETTS 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1MICHIGAN 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5MINNESOTA 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1MISSISSIPPI 14.3 19.6 65.7 189.1 915.6 1239.9 144.4MISSOURI 9.6 28.3 189.0 233.5 1318
32、.3 2424.2 378.4MONTANA 5.4 16.7 39.2 156.8 804.9 2773.2 309.2NEBRASKA 3.9 18.1 64.7 112.7 760.0 2316.1 249.1NEVADA 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2NEW HAMPSHIRE 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4NEW JERSEY 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5NEW MEXICO 8.8 39.1 109.6 343.4 1418.7 30
33、08.6 259.5NEW YORK 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8NORTH CAROLINA 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1NORTH DAKOTA 0.9 9.0 13.3 43.8 446.1 1843.0 144.7OHIO 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4OKLAHOMA 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8OREGON 4.9 39.9 124.1 286.9 1636.4 3506.1 3
34、88.9PENNSYLVANIA 5.6 19.0 130.3 128.0 877.5 1624.1 333.2RHODE ISLAND 3.6 10.5 86.5 201.0 1489.5 2844.1 791.4SOUTH CAROLINA 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1SOUTH DAKOTA 2.0 13.5 17.9 155.7 570.5 1704.4 147.5TENNESSEE 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0TEXAS 13.3 33.8 152.4 208.2 1603.1
35、 2988.7 397.6UTAH 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5VERMONT 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2VIRGINIA 9.0 23.3 92.1 165.7 986.2 2521.2 226.7WASHINGTON 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3WEST VIRGINIA 6.0 13.2 42.2 90.9 597.4 1341.7 163.3WISCONSIN 2.8 12.9 52.2 63.7 846.9 2614.2 220.7WYOMING 5.4 21.9 39.7 173.9 811.6 2772.2 282.0