1、2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 1 页 共 16 页研究生课程考核试卷(适用于课程论文、提交报告)科 目: 数理统计 教 师: 刘琼荪 姓 名: xxx 学 号: 20150702xxx 专 业: 机械工程 类 别: 学术 上课时间: 2016 年 3 月至 2016 年 4 月 考 生 成 绩:卷面成绩 平时成绩 课程综合成绩阅卷评语: 阅卷教师 (签名) 2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 2 页 共 16 页我国上世纪 70-90年代民航客运量回归分析摘要:中国民航从上实际50年代发展至今已有60多年的历史,这期间中国民
2、航经历了曲折的发展。随着改革开发以来,中国人民的生活水平日渐提高,出行坐乘飞机逐渐人们可选的交通方式。我国民航客运量逐年提高,为了研究其历史变化趋势及其成因,现以民航客运量作为因变量y,假设以国民收入x1、消费额x2、铁路客运量x3、民航航线里程x4、来华旅游入境人数x5为影响民航客运量的主要因素。利用SPSS和excel软件通过建立回归模型分析我国民航客运量主要受到其中哪些因素的影响,并就回归模型分析具体可能的成因。关键词:民航客运量 影响因素 回归模型一、问题提出及问题分析2004年,民航行业完成运输总周转量230亿吨公里、旅客运输量1.2亿人、货邮运输量273万吨、通用航空作业7.7万小
3、时。截止2004年底,我国定期航班航线达到1200条,其中国内航线(包括香港、澳门航线)975条,国际航线225条,境内民航定期航班通航机场133个(不含香港、澳门),形成了以北京、上海、广州机场为中心,以省会、旅游城市机场为枢纽,其它城市机场为支干,联结国内127个城市,联结38个国家80个城市的航空运输网络。民航机队规模不断扩大,截止至2004年底,中国民航拥有运输飞机754架,其中大中型飞机680架,均为世界上最先进的飞机。2004年中国民航运输总周转量达到230亿吨公里(不包括香港、澳门特别行政区以及台湾省),在国际民航组织188个缔约国中名列第3位。从上述事实可以看出我国民航的发展所
4、取得的成果显著。当前我国民航客运量相当巨大,而影响我国航运客运量的因素有很多,例如第三产业增加值(亿元),城市居民消费水平(绝对元),定期航班航线里程(万千里)等 1。为了研究过去的情况,从中国统计年鉴 2得到1994年统计摘要,分析类似因素对我国航空客运量的影响。2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 3 页 共 16 页二、数据描述如下为所得统计数据:表 1 1978-1993 年统计数据年份y民航客运量(万人)x1国民收入(亿元)x2消费额(亿元)x3铁路客运量(万人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)1978 231 3010 1888
5、81491 14.89 180.921979 298 3350 2195 86389 16 420.391980 343 3688 2531 92204 19.53 570.251981 401 3941 2799 95300 21.82 776.711982 445 4258 3054 99922 23.27 792.431983 391 4736 3358 106044 22.91 947.71984 554 5652 3905 110353 26.02 1285.221985 744 7020 4879 112110 27.72 1783.31986 997 7859 5552 1085
6、79 32.43 2281.951987 1310 9313 6386 112429 38.91 2690.231988 1442 11738 8038 122645 37.38 3169.481989 1283 13176 9005 113807 47.19 2450.141990 1660 14384 9663 95712 50.68 2746.21991 2178 16557 10969 95081 55.91 3335.651992 2886 20223 12985 99693 83.66 3311.51993 3383 24882 15949 105458 96.08 4152.7三
7、、模型建立:2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 4 页 共 16 页(1)提出假设条件,明确概念,引进参数;参考相关书籍 3,设随机变量民航客运量为 (万人) ,解释变量 ,Y1X, , , 分别为国民收入(亿元) ,消费额(亿元) ,铁路客运量2X345X(万人) ,民航航线里程(万公里) ,来华旅游入境人数(万人) ,且回归函数,称125015(|,)EYxxx,为多元线性回归模型,20 ,EDY为回归系数, 为随机误差。15,为上述来自多元线性回归模型的样本值,满足:2(,),12,5iixy 201125,0,1,5,iiiiiiyxED相 互 独 立为
8、了便于对模型进行参数估计、模型检验、变量选择等,有必要对模型作如下一些基本假定。1. 解释变量 , , , , 是可控制的、非随机变量,互不相关。1X234X52. 随机误差项具有零均值和同方差的性质,即 ,并且2,1,5iD,则有 。125,相 互 独 立 ,0,ijCovij3. 随机变量误差项服从正态分布,即 2,iNi(2)模型构建:由表1通过EXCEL绘制变量 对因变量 的关系散点图如下:,1,5iXY2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 5 页 共 16 页图1 民航客运量与国民收入关系图图2 民航客运量与消费额关系图2015-2016 年第二学期研究
9、生“应用数理统计”课程课外作业第 6 页 共 16 页图3 民航客运量与铁路客运量关系图图4 民航客运量与民航航线里程关系图2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 7 页 共 16 页图5 民航客运量与来华旅游入境人数关系图由以上的散点图看出: 与 存在非线性关系,但与其它几个变量基本是线y3x性相关的。所以首先考虑回归模型为多元线性模型。四、模型求解。采用最小二乘估计法求解模型参数,采用SPSS软件计算,得到如下结果:表2 拟合过程小结R R 平 方调 整 后 的 R平 方标 准 估 算 的错 误Durbin-Watson(U)1 .999a .998 .997
10、49.49240 1.993模 型 摘 要 b模 型a. 预 测 变 量 : ( 常 量 ) , x5, x3, x4, x2, x1b. 因 变 量 : y表3 方差分析平 方 和 自 由 度 均 方 F 显 著 性回 归 13818876.769 5 2763775.354 1128.303 .000b残 差 24494.981 10 2449.498总 计 13843371.750 15b. 预 测 变 量 : ( 常 量 ) , x5, x3, x4, x2, x1ANOVAa模 型1a. 因 变 量 : y2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 8 页 共
11、 16 页表4 回归过程统计量标 准 系 数B 标 准 错 误 贝 塔 容 许 VIF( 常 量 )450.909 178.078 2.532 .030x2 -.561 .125 -2.485 -4.478 .001 .001 1740.508x1 .354 .085 2.447 4.152 .002 .001 1963.337x3 -.007 .002 -.083 -3.510 .006 .315 3.171x4 21.578 4.030 .531 5.354 .000 .018 55.488x5 .435 .052 .564 8.440 .000 .040 25.1931a. 因 变 量
12、: y系 数 a模 型非 标 准 化 系 数t 显 著 性共 线 性 统 计图6 残差图则回归方程为 12345450.9.340.5.71.580.3yxxx五、模型分析检验(1)决定系数由决定系数 =0.998看出回归方程高度显著。2R(2)方差分析表 1234518.30=.0,yFPxx, 值 , 这 说 明 ,整 体 上 对 有 高 度 显 著 的 影 响 。(3)回归系数的显著性检验(t检验):2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 9 页 共 16 页回归系数的显著性检验由显著性一列看出自变量的回归系数都通过了t检验(即收尾概率小于规定的显著性水平0.
13、05),说明5个自变量对 的影响显著。y其中 铁路客运量的显著性为0.006最大,但仍小于5%。3x(4)检验残差序列的自相关性(D-W检验):D-W=1.9932,所以认为模型不存在序列的自相关性。(6)异方差检验从残差图看出所有点落在2之间,没有明显变化趋势,所以认为20,1,5iNi综上,认为用最小二乘估计的方法估计的模型理论上是有效的。(7) 模型进一步分析虽然,模型通过了检验,但是由之前的图可知 与 正相关,但 (国民2xy2x消费额)的回归系数是负值,显然是矛盾的,同时 和 的VIF很大, ,14的VIF 也大于10,其原因是自变量之间的共线性,因而回归模型还要就共线5x性问题进行
14、谈论。如下表是各变量之间的相关系数:表5 相关系数表y x1 x2 x3 x4 x5相 关 系 数 1.000.933* .933* .367* .933* .933*显 著 性 ( 双尾 ) .000 .000 .048 .000 .000N 16 16 16 16 16 16相 关 系 数 .933* 1.000 1.000* .400* .967* .933*显 著 性 ( 双尾 ) .000 .031 .000 .000N 16 16 16 16 16 16相 关 系 数 .933* 1.000* 1.000 .400* .967* .933*显 著 性 ( 双尾 ) .000 .03
15、1 .000 .000N 16 16 16 16 16 16相 关 系 数 .367* .400* .400* 1.000 .367* .400*显 著 性 ( 双尾 ) .048 .031 .031 .048 .031N 16 16 16 16 16 16相 关 系 数 .933* .967* .967* .367* 1.000 .900*显 著 性 ( 双尾 ) .000 .000 .000 .048 .000N 16 16 16 16 16 16相 关 系 数 .933* .933* .933* .400* .900* 1.000显 著 性 ( 双尾 ) .000 .000 .000 .
16、031 .000N 16 16 16 16 16 16*. 相 关 性 在 0.01 级 别 显 著 ( 双 尾 ) 。*. 相 关 性 在 0.05 级 别 显 著 ( 双 尾 ) 。相 关 性肯 德 尔tau_b yx1x2x3x4x5可以看出, 与 , , , 的相关系数都在0.9以上,说明所选自变量与y1x245x2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 10 页 共 16 页高度线性相关,验证之前的散点图。用 与自变量作多元线性回归是适合的。y y另一方面, 与各变量的相关系数均小于0.5,而 , , , 之间的相关系3x 1x245x数均达到0.9以上,所
17、以应尝试解决它们之间的共线性。首先剔除VIF最大的 ,计算剩余变量参与的回归方程。结果如下:1表6 统计量表标 准 系 数B 标 准 错 误 贝 塔 容 许 VIF( 常 量 )695.039 264.525 2.627 .024x2 -.053 .042 -.233 -1.262 .233 .013 77.546x3 -.012 .003 -.134 -4.207 .001 .431 2.319x4 32.037 4.951 .788 6.471 .000 .030 33.812x5 .399 .080 .517 4.988 .000 .041 24.4691a. 因 变 量 : y系 数
18、a模 型非 标 准 化 系 数t 显 著 性共 线 性 统 计可以看出,当前 的VIF最大,同时 也没通过t检验,其显著性 0.233远大于22x0.05,故继续剔除 。计算剩余参数的回归方程,结果如下:x表7 统计量表标 准 系 数B 标 准 错 误 贝 塔 容 许 VIF( 常 量 )591.876 257.730 2.296 .040x3-.010 .003 -.119 -3.934 .002 .504 1.984x426.436 2.249 .650 11.754 .000 .150 6.650x5.317 .048 .411 6.568 .000 .117 8.5141a. 因 变
19、量 : y系 数 a模 型非 标 准 化 系 数t 显 著 性共 线 性 统 计表8 拟合过程小结模 型R R 方 调 整 R 方标 准 估 计 的误 差1 .997 .994 .993 79.78835模 型 汇 总表9 方差分析表2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 11 页 共 16 页平 方 和 df 均 方 F Sig.回 归 13766977.581 3 4588992.527 720.839 .000残 差 76394.169 12 6366.181总 计 13843371.750 15Anovab模 型1可以看出三个变量的VIF均小于10,且均通过
20、了t检验。说明此回归模型不存在强多重共线性,回归系数也有合理的经济解释。 说明回归方程20.94R高度显著,方差分析的结果也说明回归方程显著性高。图7 残差直方图2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 12 页 共 16 页图8 残差正态P-P图由P-P图和直方图可知残差服从正态分布,所以模型是有效的 4。所以民航客运量的回归模型为: 。345591.760.2.60.317yxx六、岭回归模型除了上述方法,在处理自变量之间存在强线性相关的情况时,可以采用岭回归进行估计(虽然牺牲了一定的无偏性) 5。采用SPSS编写程序运行可得到如下岭回归结果。2015-2016
21、年第二学期研究生“应用数理统计”课程课外作业第 13 页 共 16 页表10 K值表R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF KK RSQ x1 x2 x3 x4 x5_ _ _ _ _ _ _.00000 .99823 2.447386 -2.48510 -.083140 .530538 .563537.02000 .99233 .187301 .092804 -.095611 .457966 .300920.04000 .99085 .215764 .162616 -.086464 .389117 .260362.0600
22、0 .98998 .228824 .190661 -.081056 .356915 .243273.08000 .98932 .235679 .205373 -.076926 .337619 .233855.10000 .98873 .239543 .214116 -.073407 .324407 .227824.12000 .98816 .241760 .219676 -.070252 .314569 .223561.14000 .98759 .242981 .223345 -.067345 .306809 .220327.16000 .98699 .243559 .225800 -.064
23、628 .300426 .217741.18000 .98636 .243702 .227435 -.062066 .295009 .215585.20000 .98571 .243539 .228490 -.059635 .290298 .213730图9 岭迹图由上述结果,可知RSQ均大于0.98,取K=0.85 ,再进行岭回归,得岭回归模型:2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 14 页 共 16 页表11 岭回归统计表ANOVA table df SS MS Regress 5.000 13693405 2738681.0 Residual 10.000
24、149966.51 14996.651 F value Sig F 182.6195114 .0000000 -Variables in the Equation- B SE(B) Beta T sig x1 .0342498 .0028297 .2368547 12.1036234 .0000003 x2 .0469878 .0048155 .2079685 9.7575560 .0000020 x3 -.0066312 .0028820 -.0760024 -2.3009394 .0441836 x4 13.5798345 1.6646128 .3338892 8.1579539 .000
25、0099 x5 .1792510 .0355048 .2321170 5.0486382 .0005002 Constant 337.9451625 285.6354347 .0000000 1.1831346 .2641200 可以看出除了 的回归系数为负,其余均为正,同时各变量的显著性检验3x均通过。方差分析显示回归模型高度显著。所以该方法所得的回归模型为: 1234537.94520470.61.57980.13yxx七、主要的结论或发现。比较两种方法的得到的回归模型: 345591.8760.2.60.317yxx12345346.7980.13x可以看出两种模型均认为 , ,对 的正
26、面贡献度度小于 , ,或者认为xy可以忽略。这说明国民收入和消费额对于民航客运量的影响很小。查阅相关历史可知,我国民航的发展有多个阶段。第一阶段是50到70年代末,主要是军队管民航,经营上采取高度集中的计划经济体制,航空运输规模较小且发展缓慢。第二阶段是从1980-1992年,民航实施企业化改革,成立了新的地区管理局、国家骨干航空公司和一些区域性的航空公司。这个阶段正是数据来源时期。在该时期,民航的发展仍处于起步阶段,同时该时期即使是经济相对发达的沿海地区也尚未达到小康阶段,出行乘坐飞机仍是绝大多数人所不能承受的。所以来2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 15
27、页 共 16 页自国内的客运量是相当小的。这也解释了为什么 游客数量的回归系数大于 ,5x1x(事实上 , 两者的线性相关程度很高,国民收入提高,消费自然上升),2x1x2而 是与y的关系最直接的,航线里程数的增加,自然反映客运量的增加,所以4该自变量的系数是最大的。 的系数为负,很显然两种交通方式是竞争关系,3x但是正如前面所分析,人们出远门乘飞机很少,无论乘火车的人数如何增加,对飞机的客运量产生的影响很小,所以 的系数依旧很小。3x为了体现所有变量对y 的影响,最终决定使用作为回归1234537.94520.3.470.61.57980.13xx模型。参考资料1 彭立南,影响民航客运量因素
28、的相关性分析及实证研究,中国市场,2014 ,35 (798 ):160-1612 中国统计年鉴, 197819933 杨虎、刘琼荪、钟波,数理统计,高等教育出版社,2004,103-1184 卢文岱、朱红兵, SPSS 统计分析(第五版),电子工业出版社,2015,270-3005 何晓群、刘文卿,应用回归分析(第三版),中国人民大学出版社,2011,169-189附录Spss 岭回归代码INCLUDE C:Program Files (x86)SPSSIncPASWStatistics18SamplesEnglishRidge Regression.sps.RIDGEREG DEP=y /
29、ENTER x1 x2 x3 x4 x5/start=0.0 /stop=0.2/inc=0.02.2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 16 页 共 16 页INCLUDE C:Program Files (x86)SPSSIncPASWStatistics18SamplesEnglishRidge Regression.sps.RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5/k=0.085.Sps文件修改代码*-.* Calculate raw coefficients from standardized ones, compute
30、standard errors* of coefficients, and an intercept term with standard error. Then print* out similar to REGRESSION output.*-(从这里开始是给出系数估计). compute beta=b;0. compute b= ( b intercpt. compute xpx=(sse/(sst*(n-nv-1)*inv(xpx+(k seb0. compute rnms=varname,Constant. compute ratio=b &/ seb. compute ppp=2*
31、(1-tcdf(abs(ratio),n-nv-1). compute bvec=b,seb,beta,ratio,ppp. print bvec/title=-Variables in the Equation-/rnames=rnms /clabels=B SE(B) Beta T sig. . print /space=newpage.end if.2015-2016 年第二学期研究生“应用数理统计”课程课外作业第 17 页 共 16 页教材错误序号 错误所在页码和所在的行数错误 修正结果 备注1 212 页第八题第三问的数据 65不合理建议改为 752 390 页的参考答案 2 有误=9/16-9/8*ln(3/4).3 281 页第 4行 18.6572.AS 19.43652.AS4 386 页第 21. N=258 N=666(左右)