1、土地利用规划学耕地需求量预测-基于回归分析法学 院:资源与环境学院班 级:2013009姓 名:x学 号:201300926指导老师:x耕地需求量预测目录一、趋势外推预测法: 21. 绘制时间序列散点图: 22. 由最小二乘法求参数: 23.进行耕地预测: 4二、 回归预测法: 4(一)回归分析概述: .4(二)一元线性回归: .41.绘制散点图: 42.最小二乘法估计参数: 53.回归方程及回归系数的检验: .61)拟合优度检验(R2) 62)相关系数显著性检验: .83)回归方程的显著性检验(F 检验) .94. 利用回归模型进行预测: .9(三)多元线性回归分析: .101.建立回归模型
2、: .102.最小二乘法估计参数: .113.多元线性回归模型的统计检验 .13(1)拟合优度检验(可决系数与调整的可决系数) 13(2) 方程的显著性检验 (F 检验) 15(3) 变量的显著性检验( t 检验) 16三、 总结: 18耕地需求量预测第 1 页耕地需求量预测根据下表进行该地 2016 年耕地需求量预测方法一:仅根据耕地面积变化趋势进行分析方法二:对耕地面积和人口做回归分析方法三:将耕地面积与人口、粮食产量及化肥施用量做回归分析(本方法不用计算耕地需求量,只列出方程并检验即可)以上三种方法在 EXCEL 或 MATLAB 软件中完成,要求步骤完整,排版清晰。表 1:基本资料年份
3、该地市耕地面积(ha)人口(万) 粮食产量(万吨)化肥施用量(万吨)1991 284751 459 784.1 10.51992 283422 460 793.5 10.71993 282474 463 796.8 10.91994 279647 465 801.4 11.41995 278546 468 810.5 11.51996 278936 469 812.2 10.81997 275374 474 815.7 11.71998 272198 481 821.6 11.61999 260484 490 826.5 11.62000 257416 493 834.3 11.72001 2
4、56471 500 836.1 11.42002 255503 507 841 11.82003 255910 511 846.8 12.22004 254872 515 848 12.92005 253690 521 853.1 12.72006 251479 530 859.1 12.82007 252465 531 862.4 12.5耕地需求量预测第 2 页2008 250175 533 857.4 13.12009 244610 539 859.8 13.52010 243540 542 861.3 13.62011 241587 547 870.9 13.72012 240116
5、552 876.8 14.1一、趋势外推预测法:概念:规划区域或单位的耕地面积或建设用地面积的变化是在时间序列上展开的。随着时间的推移,可以得到一系列依赖于时间的数据 Yt=f(t)。已时间为参数的数列称之为时间序列。若假定变量的过去变动趋势外延到未来,从而得到预测值期的变量数值,这就是趋势预测法。1.绘制时间序列散点图:由图可以看出:该地区历年耕地面积变化趋势呈递减趋势且年变化增减幅度大致相等,所以拟合方程为直线方程 y=a+bx。2.由最小二乘法求参数:耕地需求量预测第 3 页由最小二乘法原理导出方程组: ynabxxi ii i i2联解上面方程可得参数 a 和 b bxynxyabi
6、iii ii i122计算附表如下:年份 x 该地市耕地面 积(ha)y x2 xy1991 284751 3964081 5669392411992 283422 3968064 5645766241993 282474 3972049 5629706821994 279647 3976036 5576161181995 278546 3980025 5556992701996 278936 3984016 5567562561997 275374 3988009 5499218781998 272198 3992004 5438516041999 260484 3996001 520707
7、5162000 257416 4000000 5148320002001 256471 4004001 5131984712002 255503 4008004 5115170062003 255910 4012009 5125877302004 254872 4016016 5107634882005 253690 4020025 5086484502006 251479 4024036 5044668742007 252465 4028049 5066972552008 250175 4032064 5023514002009 244610 4036081 4914214902010 24
8、3540 4040100 4895154002011 241587 4044121 4858314572012 240116 4048144 483113392求和 44033 5753666 88132935 1.151E+10耕地需求量预测第 4 页根据公式 1 可得:-234.781baxy78.2341进行耕地预测:根据方程 2016 年的耕地面积为 ha)万2916078.234471y2、回归预测法:(一)回归分析概述:回归分析是借助数学模型对客观世界所存在的事物间的不确定关系的一种数量化描写,即通过一个或几个变量的变化去解释另一变量的变化。它的目的是在于对相关随机变量进行估计、预
9、测和控制,确定变这些量之间数量关系的可能形式,并用一个数学模型来表示。回归分析的分类: 非 线 性 回 归线 性 回 归按 方 程 式 特 征 分 类 多 元 回 归简 单 回 归按 自 变 量 个 数 分 类回 归 分 析(2)一元线性回归:1.绘制散点图:耕地需求量预测第 5 页由图我们可以看出:随着该地区人口的增加,耕地面积变化趋势呈递减趋势,且增加幅度大致相等,所以拟以直线方程 y=a+bx。2.最小二乘法估计参数:最小二乘法原理是要使残差平方和为最小,即:Qyyabxiiniiin1212要使 Q 最小,可由极值原理得: ayabxbi ii ii20所以可以导出方程组: ynabx
10、xi ii i i2两个方程联立求解可得回归方程的参数: bxynxyabi iii ii i122耕地需求量预测第 6 页根据公式求出方程:y = -460.71x + 492931用 excel 高级分析进行回归分析可得如下几表:表(1)回归统计表回归统计Multiple R 0.97407693R Square 0.94882587Adjusted R Square0.94626716标准误差 3460.07955观测值 22表(2)方差分析表方差分析 df SS MS F Significance F回归分析 1 4.44E+09 4.44E+09 370.8225 2.22E-14残
11、差 20 2.39E+08 11972150总计 21 4.68E+09表(3)回归参数表回归参数表 Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% 下限 95.0% 上限 95.0%Intercept 492931.47 12039.25 40.94371 9.19E-21 467818 518044.9 467818 518044.9X Variable 1 -460.70827 23.92451 -19.2568 2.22E-14 -510.614 -410.803 -510.614 -410.8033.回归方程及回归系数的检验:
12、1)拟合优度检验(R 2)拟合优度检验是对样本回归直线与样本观测值之间拟合程度的检验。度量拟合优度的指标:可决系数 R2耕地需求量预测第 7 页xyoyiyiyiiiyiXY由图可知: niiniinii yyy121212 )()()(即: 总离差平方和 = 回归平方和 + 残差(剩余)平方和如果实际观测点离样本回归线越近,则回归平方和在总平方和中占的比重越大,因此拟合优度等于回归平方和/Y 的总离差:948.0)(22 iYR总 离 差 平 方 和回 归 平 方 和称 R2为可决系数。可决系数的取值范围:0,1 ,R2 越接近 1,说明实际观测点离样本线越近,拟合优度越高。R20.8 说明
13、拟合得很好。 8.094.2R所以该回归方程拟合程度很好.此外拟合优度测定还可用标准误差来估计1()2eknySii表示根据所建立的回归方程,用自变量来预测因变量时,平e均预测误差的大小;耕地需求量预测第 8 页故 越小越好,越小说明波动性越小。Se2)相关系数显著性检验:(1)提出假设 ;0:0bH(2)根据公式计算 R 的值得 9741.0)()(1212niiniii ii yx(3)查 R 表得临界值 3. R相关系数显著性检验表显著性水平 显著性水平 显著性水平自由度(n-2) 0.05 0.01自由度(n-2) 0.05 0.01自由度(n-2) 0.05 0.011 0.997
14、1 16 0.468 0.59 35 0.325 0.4182 0.95 0.99 17 0.456 0.575 40 0.304 0.3933 0.878 0.959 18 0.444 0.561 45 0.288 0.3724 0.811 0.917 19 0.433 0.549 50 0.273 0.3545 0.754 0.874 20 0.423 0.537 60 0.25 0.3256 0.707 0.834 21 0.413 0.526 70 0.232 0.3027 0.666 0.798 22 0.404 0.515 80 0.217 0.2838 0.632 0.765 2
15、3 0.396 0.505 90 0.205 0.2679 0.602 0.735 24 0.388 0.496 100 0.195 0.25410 0.576 0.708 25 0.381 0.487 125 0.174 0.22811 0.553 0.684 26 0.374 0.478 150 0.159 0.20812 0.532 0.661 27 0.367 0.47 200 0.138 0.18113 0.514 0.641 28 0.361 0.463 300 0.113 0.14814 0.497 0.623 29 0.355 0.456 400 0.098 0.12815 0
16、.482 0.606 30 0.349 0.449 1000 0.062 0.081(4)若 则应该拒绝原假设,否则接受。)2(nR这里显然 R=0.97410.423,所以拒绝原假设,相关系数具有很高显著性,即两者具有很强线性相关性。耕地需求量预测第 9 页3)回归方程的显著性检验(F 检验)(1)提出假设:H 0:b=0 (2)在 H0 成立时,统计量 F 为: )2,1()2()(121 , nFnyFni iinii由给定的显著水平 ,查 F 分布表得临界值 ;查表可得 35.4(3)根据公式计算 F 的值 825.370)()(12nyniiii(4)比较 与 F 的值,若 ,则否定
17、 ,即认为 x、Y 之间H0存在线性相关关系;若不能否定 H0,则没有理由认为 x、Y 之间存在线性相关关系.这里显然 F=370.8225 远大于 =4.35,所以否定原假设,说明回归方程具有很高显著性,x、Y 之间存在很强的线性相关关系。4.利用回归模型进行预测:1.利用趋势外推法确定 2016 年的人口数量耕地需求量预测第 10 页求得拟合方程为:y = 4.8312x - 9167.3所以可得 2016 年的人口为: 万572916.3-204.83y2.根据耕地与人口的回归方程可得:2016 年的耕地面积为: a)2940.(h431 +572-460.1y(三)多元线性回归分析:1
18、.建立回归模型:假设随机变量 y 与 p 个自变量 之间存在着线性相关关系,假定回归方程如下: ).,(21nxxfy耕地需求量预测第 11 页2.最小二乘法估计参数:建立多元线性回归方程,实际上是对多元线性模型进行估计,寻求估计参数的过程。与一元线性回归分析相同,其基本思想是根据最小二乘原理,求解 使全部观测值 与回归值 的残差平方和达到最小值。由于残差平方和是 的非负二次式,所以它的最小值一定存在。根据极值原理,当 Q 取得极值时, 应满足由上式,即满足上式称为正规方程组。它可以化为以下形式耕地需求量预测第 12 页利用克拉默法则进行求解: 对于 个变量、 个方程的线性方程组nn12121
19、2nnnaxaxb 如果它的系数行列式 ,则该方程组有唯一解0D, 1,jjxnmna.1其中 ( )是将行列式 中第 列的元素换成jD1,2n Dj方程组右端的常数项所得到的 阶行列式,即11,1,1,jjnjnnjnjaba 所以: D01D23根据克拉默法则可得多元回归方程为: 3210.19.638.302.6971xxy 用 excel 高级分析里面的回归分析对本题进行计算可得如下几表:耕地需求量预测第 13 页回归统计Multiple R 0.980033844R Square 0.960466335Adjusted R Square 0.953877391标准误差 3205.70
20、1822观测值 22方差分析 df SS MS F Significance F回归分析 3 4.49E+09 1.5E+09 145.7694 8.16E-13残差 18 1.85E+08 10276524总计 21 4.68E+09回归参数表 Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% 下限 95.0% 上限 95.0%Intercept 609781.2134 56203.33 10.84956 2.51E-09 491702.4 727860 491702.4 727860X Variable 1 -308.1763702
21、138.0734 -2.23197 0.038565 -598.258 -18.0949 -598.258 -18.0949X Variable 2 -263.9174591 134.17 -1.96704 0.064788 -545.798 17.96333 -545.798 17.96333X Variable 3 2218.999538 2129.259 1.042147 0.31114 -2254.41 6692.406 -2254.41 6692.4063.多元线性回归模型的统计检验(1)拟合优度检验(可决系数与调整的可决系数)总离差平方和的分解(同一元线性回归分析)耕地需求量预测第
22、 14 页xyoyiyiyiiiyiXY由图可知: niiniinii yyy121212 )()()(即: 总离差平方和 = 回归平方和 + 残差(剩余)平方和可决系数: TSRER12该统计量越接近于 1,模型的拟合优度越高。调整的可决系数在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: )1/(12 nTSkR其中:n-k-1 为残差平方和的自由度,n-1 为总体平方和的自由度。 之 间 存 在 如 下 关 系 :与 2R耕地需求量预测第 15 页1)1(22 knRR对于本例可求出
23、可决系数 R2=0.96, 95.02由于 0.8 所以说明回归模型拟合程度比较高。95.02R(2)方程的显著性检验(F 检验) 方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。(1)提出假设:H 0:b=0 (2)在 H0 成立时,统计量 F 为: )1,()1()(121 , knmFknymFni iinii由给定的显著水平 ,查 F 分布表得临界值 ;查表可得 23.4(3)根据公式计算 F 的值 7694.15)3()(12nyniiii耕地需求量预测第 16 页(4)比较 与 F 的值,若 ,则否定 ,即认为自变量与因变H0量之间存在
24、线性相关关系;若不能否定 H0,则没有理由认为自变量与因变量之间存在线性相关关系.这里显然 F=145.7694 远大于 =4.23,所以否定原假设,说明回归方程具有很高显著性,自变量与因变量之间存在线性相关关系。(3)变量的显著性检验(t 检验)方程的总体线性关系显著 每个解释变量对被解释变量的影响都是显著的。因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的 t 检验完成的。检验步骤:1)提出假设:H0:i = 0 i = 1,2,k2)给定显著性水平 0.05, 可得到临界值 ta/2(n-k-1)= 109.2)8(/t3)根据公式可得本
25、题中的 iStii109.23.2/1 tt 2/9670.12tt2/041.3tt耕地需求量预测第 17 页4)若 则拒绝假设 , 即认为 与 y 有显著差异, 这说明 对2/ti有重要作用不应剔除; 否则接受假设 , 即认为 成立, 这说明对 不起作用 , 应予剔除。对于本题而言:109.23.2/1 tt 2/9670.12tt2/041.3tt所以 与 的 t 检验均不通过。那么这是为什么呢?(多重共线性)若某个回归系数的 t 检验通不过,可能是这个系数相对应的自变量对因变量的影平不显著所致,此时,应从回归模型中剔除这个自变量,重新建立更为简单的回归模型或更换自变量。也可能是自变量之
26、间有共线性所致,此时应设法降低共线性的影响。 多重共线性是指在多元线性回归方程中,自变量之彰有较强的线性关系,这种关系若超过了因变量与自变量的线性关系,则回归模型的稳定性受到破坏,回归系数估计不准确。需要指出的是,在多元回归模型中,多重共线性的难以避免的,只要多重共线性不太严重就行了。判别多元线性回归方程是否存在严惩的多重共线性,可分别计算每两个自变量之间的可决系数 r2,若 r2 R2或接近于R2,则应设法降低多重线性的影响。表(4)各变量间的相关系数R 人口(万) 粮食产量(万吨) 化肥施用量(万 吨)人口(万) 1耕地需求量预测第 18 页粮食产量(万吨) 0.981295947 1化肥
27、施用量(万吨) 0.949854303 0.927482806 1我们知道耕地面积与这三者的复相关系数为 R=0.9800所以由表我们可以看出自变量人口与粮食产量的相关性很高超过了复相关系数,并且其他变量之间的相关性也比较高。所以本题中存在了多重共线性。3、总结:在进行多元回归分析时,检验单个自变量对因变量的影响是否显著时检验过程中可能会因为“多重共线性”问题导致某些自变量无法通过检验。在一元线性回归中,回归系数显著性检验( t 检验)与回归方程的显著性检验(F 检验)是等价的,但在多元线性回归中,这个等价不成立。多元回归分析中随着变量的增加,可决系数不断接近于 1,这样会造成误差,因调整可决系数,剔除变量个数的影响。