1、统 计 预 测 和 决 策 课 程 论 文-安徽省人口总数的预测学 院: 数理学院 班 级: 学生姓名 : 指导教师: 完成时间: 1目 录摘要2一 绪论3二 数据来源3三 模型及预测方法的介绍4四 模型建立、求解及检验81.移动平均法预测82.指数平滑法预测93.一元线性回归预测 104.灰色模型预测 13五 分析与结论18六 参考文献192摘 要我国是一个人口大国,是世界人口最多的国家,并且人口增长速度也较快,但是众多的人口对于我们国家的经济、环境等各方面都带来沉重的负担,社会经济的发展已经不能满足全人的需求,因此我们有必要对未来人口进行预测,并针对预测的结果进行政策的各方面的调整,以使得
2、我们国家能够更好更快的向前发展。本论文通过收集安徽省 2000-2012 年的人口总数数据,并且分别采用移动平均法、指数平滑法、一元线性回归预测模型、灰色预测模型对安徽省未来五年的人口总数进行预测。通过建模求解我们可以预测到未来五年安徽省人口总数成缓慢下降趋势,预测安徽省 2014 年人口总数为 5969.8065 万人,2015 年为 5952.8048 万人,2016 年为 5935.8524 万人,2017 年为 5918.9482 万人,2018 年为 5902.0922 万人。关键词:移动平均法;指数平滑法;线性回归;灰色模型;excel;SPSS3一、绪论对于国家而言人口发展状况与
3、国民经济各方面都有着密切联系,直接影响着经济的繁荣与社会的发展,人口预测是制定和顺利实践社会经济各项战略设想的挤出和出发点,是制定正确的人口政策的科学依据。作为人口大国的中国,人口的分析和预测对我国的社会进步和经济发展具有更为重大的现实意义和长远意义。而安徽省正处于崛起阶段,经济还不是特别发达,与沿海及多数发达省份城市相比还有很大的差距,而人口对于经济社会发展的影响就如同一把双刃剑,过多的人口 及过快的人口增长速度均不利于经济社会的发展,因此作为正在崛起的省份,安徽尤其要注意人口增长的趋势及速度,以正确把握经济社会的快速发展。本文针对安徽省过去 13 年的人口数据对安徽未来五年的人口增长做出一
4、个大致的预测。二、数据来源从中国统计年鉴上得到的安徽省 2000 到 2012 年总人口数的数据,如下:表 1: 安徽省年人口数年份 安徽省总人口 (万人) 城镇人口(万人) 农村人口(万人)2000 年 6093 3980 21132001 年 6128 4088 20402002 年 6144 4162 19822003 年 6163 4145 20182004 年 6228 4002 22262005 年 6120 3947 21732006 年 6110 3843 22672007 年 6118 3750 23682008 年 6135 3650 24852009 年 6131 355
5、0 25812010 年 5957 3395 25622011 年 5968 3294 26742012 年 5988 3245 2743三、模型及预测方法的介绍1.移动平均法:移动平均法是根据时间序列资料逐项推移,依次计算包含一定项数的时序平均数,以反映长期趋势的方法。当时间序列的数值由于受周期变动和不规则变动的影响,起伏较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,来分析、预测序列的长期趋势。移动平均法有简单的平均法、加权平均法和趋势移动平均法。4(1)简单移动平均法设时间序列为: ; 简单移动平均法的计算公式为:12ty,11tttNtyM式中: t 期移动平均数N 移
6、动平均项数预测公式为: 1tty即以第 t 期移动平均数作为第 t+1 期的预期值。简单移动平均法只适合做近期预测,即只能对后续相邻的那一项进行预测。它一般适用于预测对象的发展趋势变化不大的情形。如果预测对象的发展趋势存在其他复杂的变化,采用简单移动平均法就会产生较大的预测偏差。(2)加权移动平均法在简单移动平均法计算公式中,每期数据在求平均时的作用是等同的。但是,实际上每期数据所包含的信息量是不一样的,近期数据包含着更多关于未来情况的信息。因此,把各期数据等同看待是不尽合理的,应考虑各期数据的重要性,对近期数据给予较大的权重,这就是加权平均法的基本思想。加权移动平均法的计算公式为:1211t
7、tntNtwywyM式中: t 期加权移动平均数tw 的权数i1tiy预测公式: 1twtMy即以第 t 期加权移动平均数作为第 t+1 期的预期值。利用加权移动平均法,可以更准确地反映实际情况。但在加权移动平均法中, 的选择,同样具有一定的经验性。一般的原则是:近期数据的权数大,远iw期数据的权数小。至于大小到什么程度,完全靠预测者对序列进行的全面了解和分析而定。2 指数平滑法:指数平滑法是在移动平均法基础上发展起来的一种时间序列分析预测法,它是通过计算指数平滑值,配合一定的时间序列预测模型对现象的未来进行预测。其原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的5加权平均。指数
8、平滑法保留了移动平均法的有点,也消除了移动平均法对存储数据量大和对最近的 N 期数据等同看待,而对 t-T 期以前的数据则完全不考虑这两个缺点。它既不需要存储很多历史数据,又考虑了各期数据的重要性,而且使用了全部历史资料。它是移动平均法的改进和发展,应用极为广泛。指数平滑法根据平滑次数的不同,又分为一次指数平滑法、二次指数平滑法和三次指数平滑法。本文只介绍一次指数平滑法,介绍如下:设时间序列为 ;一次指数平滑公式为:12,ty (1) (1)tttSyS式中: 一次指数平滑值;(1)tS平滑系数,且 。0预测模型为: 1()tt tyy也就是以第 t 期指数平滑值作为 t+ 1 期预期值。在进
9、行指数平滑时,加权系数的选择很重要。 的大小规定了在新预测值中新数据和原预测值所占的比重。 值越大,新数据所占的比重就愈大,原预测值所占的比重就愈小,反之则相反。 值的选择一般遵循下列原则 :a.如果时间序列波动不大,比较平稳,则 应取小一点,如 0. 1 0. 3,以减少修正幅度,使预测模型能包含较长时间序列的信息。b.如果时间序列具有迅速且明显的变动倾向,则应 取大一点,如 0.60.8使预测模型灵敏度高一些,以便迅速跟上数据的变化。在实用时,类似于移动平均法,多取几个 值进行试算,看哪个预测误差较小,就采用哪个 值作为权重。用一次指数平滑法进行预测,除了选择合适的 外,还要确定初始值 初
10、(1)0S始值是由预测者估计或指定的。当时间序列的数据较多,比如在 20 个以上时初始值对以后的预测值影响很少,可选用第一期数据为初始值。如果时间序列的数据较少,在 20 个以下时,初始值对以后预测值影响很大,这时,就必须认真研究如何正确确定初始值。一般以最初几期实际值的平均值作为初始值。3.一元线性回归回归分析是一种应用极为广泛的数量分析方法,是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。它用于分析事物之间的统计关系,侧重观察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,有助于人们准确的把握因变量与自变量之间的关系,进而为预测提供了科学依据。回归分析按照涉
11、及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。因为货运量往往受很多因素影响,处理这类经济问题单用一元线性回归模型是远远不够的,所以在此研究中,必须考虑多元的线性回归模型,多元线性回归6模型跟一元线性回归模型类似,只不过在具体计算上较为复杂。一元线性回归模型的数学模型为: 01yx(1) 拟合优度检验为了检验总的回归效果, 人们常引用无量纲指标复相关系数或yysQUR2 ysR1其中 ,21)(nii 21)(niii称为复相关系数。很显然 , 越大说明回归方程与样本值拟R02R2合得越好,反之越差。由于 与模型中的解释
12、变量个数有关,即如果观测值2不变,决定系数 将随解释变量的数目增大而增大,因而需对 进行调整。x2 2R调整后的决定系数,即修正后的 ,其中 为变量1)1(22knRk个数。因此多元线性回归方程的的拟合优度检验采用修正的 ,修正的 越接22近 1,说明回归方程对样本数据点的拟合优度越高,反之,修正的 越接近于R0,说明回归方程据点的拟合优度越低。(2)回归方程的显著性检验回归方程的显著性检验就是检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。利用 检验对回归方程进行显著性检验的方法称为方差分析。检验统计量F,)1,()1/(knFknQUF对于给定的
13、置信度 , 由 分布表可查得 的值, 如果根据统计量算,得的 值为 , 则拒绝原假设, 即 个自变量的总体回归效果F)1(knk是显著的, 否则认为回归效果不显著。(3)回归系数的显著性检验回归系数的显著性检验的主要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究每个解释变量能否有效地解释被解释变量的线性关化,它们能否保留在线性回归方程中。4.灰色预测模型:灰色系统理论是中国学者邓聚龙于 1982 年 3 月首先提出的,该理论为解决7贫信息系统问题提供了新途径,灰色系统是一种介于白色系统和黑色系统之间的过度系统。如果一个系统内部特征是完全已知的我们称之为白色
14、系统,也就是说白色系统的信息是完全已知的,相反如果我们对一个系统的内部信息是一无所知的我们定义它为黑色系统。灰色系统内有一部分的信息是是已知剩下的都是未知的信息,因而系统内部各要素之间具有不确定的关系。本文所研究的未来人口总数就是一个灰色系统,人口数既受到经济及国家政策的影响也会受到来自各方面的其他不确定因素的影响,因此可以利用灰色预测模型对人口数进行预测。灰色预测是对含有不确定因素的系统进行预测的一种方法。灰色过程所显示的现象是随机的但是是有序的,所以这些数据集合是有规律可循的。灰色预测通过关联分析对原始数据进行生成处理目的是通过找寻系统变动的规律,生成具有较强规律性的新的数据列,然后建立对
15、应的微分方程模型,以预测事物未来的发展趋势。建立灰色预测模型之前需要对原始时间序列数据进行处理,经过处理后的序列称为生成列,生成列的产生有累加和累减两种方式,在 G(1,1)模型中通常采用累加生成新序列,具体的建模步骤如下:(1)采集原始数据从中国统计年鉴上收集到 19902011 的中国货运量数据记为 。(0)tY00001,2,XXn(2)构造累加生成列 。1111,其中 101,2,kiXin定义: (1)()(1).5tttYX(3)建立微分方程新的生成列中数据间的变化规律近似指数增长,而一阶微分方程的解正好是指数形式,因此可以认为新序列 满足下述一阶线性微分方程: 1Y1dabt(式
16、中a称为模型的发展参数,反映 及原始数列 的发展趋势;b称为模型1Y0Y的协调系数,反映数据间的变换关系。)(4)确定参数记 ,利用最小二乘法确定参数 ,(,)Tba81TaBY其中B= , 。(2)31()Yn (0)(0)23XYn(5)求解微分程将参数 a,b 代入式方程中,求解微方程,得到用于预测的时间响应函数:,t=0,1,2 。101atbXte(6)求原始数据的灰色预测模型通过累减可以得用于预测的模型为: (0)(1)(1)(0)1aatbttteeXX(7)G(1,1)模型的精度检验通过计算模型的绝对误差和相对误差确定预测模型的精度或者利用关联度检验模型精度。(8).模型的修正
17、利用残差对原模型进行修正。四、模型的建立、求解及检验1.移动平均法、加权平均法预测:简单移动平均法根据数据波动情况及经验设定移动平均项数 N=2,再根据预测公式; ,11tttNtyMt1tt求出简单移动平均法的预测值并计算其误差。加权移动平均法根据经验赋予各年份权重如下:=0.0626; =0.063; =0.0631; =0.0633; =0.064; =0.064; =12345670.065; =0.075; =0.08; =0.1; =0.11; =0.13; =0.168910112139代入加权平均法预测公式: ; 得1211ttntNtwywyM 1twtM到加权平均法的预测值
18、并计算其误差。运用 excel 软件对数据进行简单移动平均、加权移动平均,得到预测值和误差如下:表 2 移动平均法预测及误差结果简单移动平均 加权移动平均年份 人口总数(万人) 预测值 误差 权重 预测值 误差2000 年 6093 0.06262001 年 6128 0.0632002 年 6144 6110.5 0.005482366 0.0631 6110.555732 0.0054731962003 年 6163 6136 0.004400261 0.0633 6136.006344 0.0043992222004 年 6228 6153.5 0.012106931 0.064 615
19、3.515032 0.0121044592005 年 6120 6195.5 0.012336601 0.064 6195.678712 0.0123658032006 年 6110 6174 0.010474632 0.065 6174 0.0104746322007 年 6118 6115 0.000490597 0.075 6114.96124 0.0004969392008 年 6135 6114 0.00343474 0.08 6114.285714 0.003387852009 年 6131 6126.5 0.000734514 0.1 6126.774194 0.00068972
20、82010 年 5957 6133 0.029545073 0.11 6132.777778 0.0295077692011 年 5968 6044 0.012734584 0.13 6039.857143 0.0120404062012 年 5988 5962.5 0.00427673 0.16 5962.958333 0.0041995372指数平滑法预测:根据经验显示,我们取平滑系数 =0.9 然后将数据代入指数平滑法预测公式: 1()tt tyy利用 excel 软件进行预测计算并求其误差得到如下表格:表 3 :指数平滑法预测值指数平滑法年份 人口总数(万人) 预测值 误差2000 年
21、 60932001 年 61282002 年 6144 6063.57 0.0132642003 年 6163 6703.243 0.0876592004 年 6228 6160.296 0.010992005 年 6120 6221.23 0.0165412006 年 6110 6130.123 0.0032932007 年 6118 6112.012 0.000982008 年 6135 6117.401 0.0028772009 年 6131 6133.24 0.000365102010 年 5957 6131.224 0.0292472011 年 5968 5974.422 0.001
22、0762012 年 5988 5968.642 0.0032433.一元线性回归:对 2000-2012 年安徽省总人口数据做时序散点图,如图 1 所示。由时序图可以看出随着时间的移动,安徽省人口数大体上呈下降的趋势。安 徽 省 总 人 口5800590060006100620063002000年2001年2002年2003年2004年2005年2006年2007年2008年2009年2010年2011年2012年年 份总人口数(万人)安 徽 省 总 人 口图 1 安徽省人口趋势图根据上述趋势图我们可以看出安徽省人口与年份大体上成一元线性回归,因此我设年份为自变量,安徽省人口数为因变量,进行一
23、元线性回归建模。源数据如下表格:表4 安徽省各年份人口总数年份 人口总数(万人)2000 年 60932001 年 61282002 年 61442003 年 61632004 年 62282005 年 61202006 年 61102007 年 61182008 年 61352009 年 61312010 年 59572011 年 59682012 年 5988下面我们利用 SPSS 软件对数据进行处理并进行一元线性回归分析,使用SPSS 软件建立一元线性回归模型,具体操作如下:输入数据11图 2 SPSS 数据导入图点击“分析”“回归”“线性” ,弹出对话框,选择人口数 Y 为因变量,年份
24、 X 为因变量,点击“确定” ,输出结果如下截图:模型汇总模型 R R 方 调整 R 方 标准 估计的误差1 .660a .435 .384 62.68401a. 预测变量: (常量), 年份。图3 模型概述及汇总Anovab模型 平方和 df 均方 F Sig.回归 33304.637 1 33304.637 8.476 .014a残差 43222.132 11 3929.2851总计 76526.769 12a. 预测变量: (常量), 年份。b. 因变量: 人口图4 方差分析表12系数 a非标准化系数 标准系数模型 B 标准 误差 试用版 t Sig.(常量) 33234.802 932
25、0.790 3.566 .0041年份 -13.527 4.646 -.660 -2.911 .014a. 因变量: 人口图5 回归系数表结果分析:(1)由图3可知决定系数R方=0.435,说明一元线性回归模型拟合优度不是很高,说明安徽省人口总数与年份不具有很强的线性关系。( 2) 由 图 4 方 差 分 析 表 知 F 统 计 量 的 值 为 8.476, 其 对 应 的 p 值 为0.014, 小 于 显 著 水 平 0.05, 说 明 回 归 方 程 较 显 著 。 ( 3) 根 据 图 5 回 归 系 数 表 , 可 得 相 应 的 参 数 分 别 为01324.8;3.527得 一
26、元 线 性 回 归 模 型 为 .YX( 4) 将 年 份 , 代 入 模12345,0,16,07X型 , 即 可 预 测 出 未 来 五 年 安 徽 的 人 口 总 数 分 别 为 1234559.36,590.74,58.,87.,8.YYY( 5) 因 模 型 拟 合 程 度 不 高 , 因 此 我 们 便 介 绍 下 面 的 灰 色 模 型 。4.灰色预测模型预测:模型建立1.现将 20002012 年的安徽人口总数数据代入时间序列 。(0)tX(0)(0)|1,2ttnX=(6093,6128,6144,6163,6228,6120,6110,6118,6135,6131,5957
27、,5968,5988)2.构造累加生成序列 :(1)tX(1)(1)|,2ttnX=(6093,12221,18365,24528,30756,36876,42986,49104,55239,6137013,67327,73295,79283)3.求序列 :(1)tY(1)()(1)0.5ttX=(9157,15293,21446.5,27642,33816,39931,46045,52171.5,58304.5,64348.5,70311,76289),4.构造矩阵 B:B= = (2)13()Yn91572346081934605278.13076295.构造数据向量 :Y=(0)(0)2
28、3XYn186416851976856.利用 excel 软件求 B 的转置矩阵 :T第一步:在 A1:B12 中输入矩阵 B;第二步:“编辑” “复制” ;14第三步:选中 C1, “编辑” “选择性粘贴” “转置” “确定” 。得到转置矩阵 .TB7.利用 excel 软件计算矩阵的乘积 :TB第一步:分别在 A1:B12 和 C1:N2 中输入 B 和 ;T第二步:选中 C4:D5 区域, “插入” “函数” “MMULT” ;第三步:在 array1 中输入 A1:B12,在 array2 中输入 C1:N2;第四步:按 F2 进入“编辑”状态,同时按下 CTRL+SHIFT+ENTE
29、R 即可得到矩阵 =TB27456931475128.利用 excel 软件计算 的可逆矩阵 :TB1TB第一步:在 C4:D5 中输入矩阵 ;第二步:选中 E4:F5, “插入” “函数” “MINVETSE” “确定” ,即可得到可逆矩阵 1.8701.263263478TE9.求矩阵 :TBY利用 MMULT 函数求的矩阵 120739TBY10.利用公式 得到参数 ,从而得到累加1Ta.85162037ab预测模型为=(1)tX0.28516275461.3e54.2t经过累减得到则最终的预测模型为: (0)0.28516 0.285160.28516.79.97* 08t tte e
30、 (注:t=0 时 则表示 2000 年安徽省人口预测总数,t=1 时则表示 2001(0)tX年安徽人口预测总数依次类推则当 t=13,t=14,t=15,t=16,t=17 时我们可以预测 2013、2014、2015、2016、2017 年安徽人口总数)下表格是利用以求的灰色模型预测出的 2001-2012 年安徽省的人口总数表 5 灰色预测法预测值年份 人口总数(万人) 预测值(万人)2000 6093 6093152001 6128 6195.2863522002 6144 6177.6433932003 6163 6160.0506782004 6228 6142.50806420
31、05 6120 6125.0154072006 6110 6107.5725662007 6118 6090.1793992008 6135 6072.8357642009 6131 6055.5415212010 5957 6038.2965282011 5968 6021.1006452012 5988 6003.953733模型检验1.相对误差绝对误差检验法 :计算上述表格数据的相对误差及绝对误差得到如下表格表 6 相对误差、绝对误差表年份 人口总数(万人) 预测值(万人)绝对误差序列 0i相对误差序列2000 6093 6093 0 02001 6128 6195.286352 67.
32、286352 0.0109801492002 6144 6177.643393 33.643393 0.0054758132003 6163 6160.050678 2.9493217 0.0004785532004 6228 6142.508064 85.491936 0.0137270292005 6120 6125.015407 5.0154072 0.0008195112006 6110 6107.572566 2.4274337 0.0003972892007 6118 6090.179399 27.820601 0.0045473362008 6135 6072.835764 62
33、.164236 0.010132722009 6131 6055.541521 75.458479 0.0123076952010 5957 6038.296528 81.296528 0.0136472262011 5968 6021.100645 53.100645 0.0088975612012 5988 6003.953733 15.953733 0.002664284结果分析:由上表格中我们可以看到相对误差值均小于 0.2%,说明模型的精度较高,因此求出的灰色模型很符合实际,可以采用上述模型。2.关联度检验由前面求出的绝对误差数据我们可以得到绝对误差的最大值与最小值如下=0 ; =
34、85.49193620mini0axi求关联系数 :()16我们利用公式 可以求得每个数据的关联系00minax()i ii i数如下:=1, =0.388486, =0.55958,(1)(2)(3)=0.935457, =0.333333, =0.894994(5)(6)=0.946264, =0.605754, =0.407453,(7)89=0.361627, =0.344607, =0.445983, =0.72821410(1)(12)(13)求关联度 r:利用求关联度的公式 我们可以求得关联度 r=0.6116731nir结果分析:因为关联度 r=0.611673 满足 时的检验
35、准则 r0.60,关联比较高,0.5因此我们可以认为此模型检验结果很好,较优越,较符合实际,可以采用。模型预测从模型精度检验表中我们可以看出相对误差不是很大,关联度也较高所以不需要对模型进行残差修正以提高模型的精度。以下是利用灰色预测模型对安徽省 20142018 年的人口总数的一个预测表 7 灰色 G(1,1)预测年份 2014 2015 2016 2017 2018人口总数预测值(万人) 5969.8056 5952.8048 5935.8524 5918.9482 5902.0922五、模型的评价该论文 介绍了四种预测模型或方法分别为移动平均预测法、指数平滑预测法、一元线性回归预测模型、
36、灰色预测模型,这四种方法、模型各有优缺点,一下便是对各模型的分析。.移动平均法、指数平滑法17优点:从前面模型及方法的检测中我们可以发现移动平均预测法、指数平滑预测法的误差均比较小,精度较高,与实际数据比较吻合,因此我们可以采用这两种方法进行人口预测。缺点:.移动平均法的移动平均项数 N 不能确定,需要依靠经验和数据特征进行取值,不同的取值会导致预测值的不同,以及误差的波动;.移动平均法的预测必须依赖与前一期、前两期,甚至前三期(取决于移动平均项数)的数据,因此不能独立预测某一期的值.指数平滑法的平滑系数也是不确定量,容易对预测值造成误差;指数平滑法预测同移动平均法一样也是依赖与前面的数据,不能进行独立预测。.一元线性回归模型论文前面介绍的一元线性回归模型简单的认为人口总数与时间成线性关系,对得到的线性回归模型进行检验发现可决系数 =0.4350.6,也说明模型的拟合度较高,最后灰色预测模型能够独立的预测某一期的值,非常方便,因此总体上论文建立的灰色预测模型能够很好的用于预测安徽省未来几年的人口数。六、参考文献1中国国家统计局.2012 年中国统计年鉴M.中国统计出版社3赵彦云,宏观经济统计分析M,北京:中国统计出版社,2003.4刘红. 略论统计分析方法J. 现代商业, 2008,(30) .5徐国祥,统计预测与决策,上海:上海财经大学出版社,2008.18