1、2010 级研究生应用统计学作业 管理学院 专业 姓名 学号 成绩 一、作业作业 1、多元线性回归教材-现代统计分析方法与应用,P138例 5.3 题作业 2、主成分分析教材-现代统计分析方法与应用,P335例 12.1 题作业 3、判别分析教材-现代统计分析方法与应用,P306例 11.3 题作业 4、聚类分析教材-现代统计分析方法与应用,P281例 10.4 题。(1)为了研究城镇居民消费结构,进行进行指标聚类,并分析结果。(2)为了研究城镇居民消费水平,进行样品聚类,并分析结果。(分别用类平均法、最长距离法) 。解题要求:(1) 一律用 SPSS 软件做(并下载计算结果,包括相应的图、表
2、等) 。(2) 答案写在本页习题后,用 A4纸打印,标题用黑体小 4 号字,正文用5 号字。(3) 各习题要抄题、抄表。(4) 2011 年 5 月 30 日交作业,由班长收齐打印版和电子版交老师。二、练习题(供在上面作业的基础上练习用)练习 1、曲线回归 出钢时所用盛钢水的钢包,因钢水对耐火材料的侵蚀,容积不断增大我们希望找出使用次数与增大的容积之间的关系,试验数据如下:使用次数 x 增大容积 y2 6.423 8.204 9.585 9.506 9.707 10.008 9.939 9.9910 10.4911 10.5912 10.6013 10.8014 10.6015 10.9016
3、 10.76写出分析报告(内容包括以下四点)1. 用双曲线 1/y = a+b/x 作曲线拟合:(1)画出散点图, (2)写出回归方程, (3)进行检验, (4)分析结果, (= 0.05)2. 用指数曲线 y = aeb/x 作曲线拟合: (1)画出散点图, (2)写出回归方程, (3)进行检验, (4)分析结果, (= 0.05)3. 比较两种曲线后,写出较优的曲线回归方程. 4. 使用较优的曲线回归方程预测当使用次数为 17 次时钢包的容积增大多少?练习 2、多元线性回归教材-现代统计分析方法与应用,P1458 题研究货运总量 y(万吨)与工业总产值 x1(亿元) 、农业总产值 x2(亿
4、元)、居民非商品支出 x 3(亿元)的关系。数据见下表:编号货运总量y(万吨)工业总产值x1(亿元)农业总产值x2(亿元)居民非商品支出x3(亿元)1 160 70 35 1.02 260 75 40 2.43 210 65 40 2.04 265 74 42 3.05 240 72 38 1.26 220 68 45 1.57 275 78 42 4.08 160 66 36 2.09 275 70 44 3.210 250 65 42 3.0(1)计算出 y,x 1、x 2、x 3 的相关系数矩阵;(2)求 y 关于 x1、 x2 、 x3 、 的三元线性回归方程;(3)对所求的方程做拟合
5、优度检验;(4)对回归方程做显著性检验;(5)对每一个回归系数做显著性检验;(6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再对方程的显著性检验和回归系数的显著性检验;(7)求出每一个回归系数的置信水平为 95%的置信区间;(8)求标准化回归方程 ;(9)求当 , , 时的 ,给出置信水平为 99%,用 SPSS 软7501X4201.30X0Y件计算置信区间;(10)结合回归方程对问题做一些基本分析。练习 3、主成分分析利用主成分分析方法和下表中 20 个城市高新技术产业化能力数据,对 20 个城市高新技术产业化能力进行横向评价20 个城市高新技术产业化能力指标和数值表(
6、2006 年原始数据)一级指标 高新技术产业化二级指标 高新技术产业化水平 高新技术产业化效益三级指标高技术产业增加值占工业增加值比重知识密集型产业增加值占生产总值比重高新技术产品出口额占商品出口额比重新产品销售收入占产品销售收入比重高技术产业劳动生产率高技术产业增加值率知识密集型产业劳动生产率地 区 % % % % 万元/人 % 万元/人北京 26.57 32.45 46.01 17.64 21.51 18.38 21.94天津 24.39 10.01 47.39 28.12 30.63 26.38 17.39沈阳 9.32 8.93 27.36 19.57 11.76 27.29 19.0
7、9大连 10.45 12.33 14.41 10.91 15.56 27.81 37.70长春 3.22 10.35 6.81 45.11 10.33 42.24 21.18哈尔滨 14.01 8.72 4.24 15.95 10.09 30.91 16.88上海 19.24 17.72 40.60 30.14 21.56 20.79 26.80南京 16.95 10.70 26.00 19.50 18.63 18.39 31.90苏州 31.84 7.28 65.83 7.52 12.92 22.17 69.21杭州 12.51 12.36 34.32 16.56 16.08 14.76 3
8、3.48宁波 6.59 9.94 5.89 13.97 5.91 17.62 49.76厦门 42.41 10.92 32.90 22.61 17.82 25.53 44.63济南 34.45 10.99 10.19 17.73 29.76 38.37 29.39青岛 8.80 7.74 11.63 32.41 16.33 24.69 38.84武汉 17.26 11.47 26.82 10.65 24.94 37.12 19.23广州 8.81 12.08 23.71 17.88 9.15 23.59 34.99深圳 51.82 13.02 48.22 15.53 15.00 20.68 5
9、1.15重庆 6.24 8.14 4.37 31.46 10.70 34.78 10.22成都 16.85 12.50 20.88 17.97 14.38 37.13 25.71西安 27.80 14.32 13.82 12.94 9.32 33.70 13.42全国 11.04 9.67 29.04 14.80 13.08 23.94 14.59(数据参见附件表 2:“2003-2006 年高新技术产业化”数据。利用其中 2006 年-未经过修正的原始数据)练习 4、Fisher 判别教材-现代统计分析方法与应用,P317思考与练习 6 题为研究某地区人口死亡状况,已按某种方法将 15 个已
10、知样品分为 3 类,指标及原始数据如下表。利用费歇线性判别函数,判定另外 4 个待判样品属于哪一类?某地区人口死亡状况指标及原始数据表组别 序号= 0 岁1X组死亡概率=1 岁2组死亡概率= 1 0 岁3X组死亡概率=55 岁4组死亡概率=80 岁5X组死亡概率=平均6预期寿命第一组 1 34.16 7.44 1.12 7.87 95.19 69.302 33.06 6.34 1.08 6.77 94.08 69.703 36.26 9.24 1.04 8.97 97.30 68.804 40.17 13.45 1.43 13.88 101.20 66.205 50.06 23.03 2.83
11、 23.74 112.52 63.301 33.24 6.24 1.18 22.90 160.01 65.402 32.22 4.22 1.06 20.70 124.70 68.703 41.15 10.08 2.32 32.84 172.06 65.854 53.04 25.74 4.06 34.87 152.03 63.50第二组5 38.03 11.20 6.07 27.84 146.32 66.801 34.03 5.41 0.07 5.20 90.10 69.502 32.11 3.02 0.09 3.14 85.15 70.803 44.12 15.12 1.08 15.15 103.12 64.804 54.17 25.03 2.11 25.15 110.14 63.70第三组5 28.07 2.01 0.07 3.02 81.22 68.301 50.22 6.66 1.08 22.54 170.60 65.202 34.64 7.33 1.11 7.78 95.16 69.303 33.42 6.22 1.12 22.95 160.31 68.30待判样品 4 44.02 15.36 1.07 16.45 105.30 64.20练习 5、聚类分析教材-现代统计分析方法与应用,P290思考与练习 4 题