1、统计系课程实验论文基于回归分析的人口数量预测 学 号: 2014962005姓 名: 李洋年 级: 2014 级专 业: 统计学课 程: 回归分析指导教师: 姜喜春完成日期: 2016 年 6 月 19 日目 录摘 要 I前 言 1第 1 章 一元线性回归 21.1 指标的选择 .21.2 样本确定 .21.3 一元回归分析 .31.3.1 绘制总人口与粮食产量的散点图 31.3.2 设定理论模型 41.3.3 回归诊断 4第 2 章 多元线性回归 52.1 数据中心化标准化 .52.2 多元回归模型建立 .52.3 逐步回归法 .62.4 多重共线性 .72.3.1 多重共线性检测 82.4
2、 主成分分析 .92.4.1 主成分分析模型建立 9第 3 章 非线性模型 113.1 曲线回归 .113.1.1 曲线拟合 113.2 Logistic 模型 .13结 论 15参考文献 16理学院 统计系 课程实验论文I摘 要回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式) 。同时依据事物发展变化的因果关系来预测事物未来的发展走势,它是研究变量间相互关系的一种定量预测方法,又称回归模型预测法或因果法,应用于经济预测、科技预测和企业人力资源的预测等。回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括
3、最简单的 t 检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用 logistic 回归代替。众多回归的名称张口即来的就有一大片,线性回归、logistic 回归、cox 回归、poission 回归、 probit 回归等等。关键词:线性回归;非线性回归;logistic 回归理学院 统计系 课程实验论文1前 言最早的形式回归的方法是最小二乘法 ,这是在 1805 年出版的勒让德 ,和高斯在 1809 年。 勒让德和高斯都采用的方法确定的问题,从天文观测,有关 Sun 的机构(主要是彗星,但后来也新发现的小行星)的轨道。 1821 年,高斯发表最小二乘法理论的进一步发展,在包括
4、高斯-马尔可夫定理的一个版本。弗朗西斯高尔顿在十九世纪的“回归”是杜撰来描述一种生物现象。 这种现象是高度高大的祖先的后代往往倒退下来,对一个正常的平均水平(这种现象也被称为向均值回归 ) 。 对高尔顿, ,回归只有这个生物意义,Udny 圣诞节和皮尔逊但他的工作,后来扩展到更一般的统计范围内。 在圣诞节和 Pearson,工作的响应和解释变量的联合分布被假定为高斯 。 这个假设 RA 费舍尔在 1922 年和 1925 年,他的作品被削弱。费舍尔认为的响应变量的条件分布为高斯分布,但联合分布不一定要。在这方面,费舍尔的假设是高斯 1821 年制定的。在 20 世纪 50 年代和 20 世纪
5、60 年代,经济学家旧机电台计算器,计算回归。 1970 年以前,有时长达 24 小时接收从一个回归的结果。 回归方法继续是一个活跃的研究领域。 在最近的几十年中,新的方法已经制定了稳健回归 ,回归涉及的相关反应,如时间序列 曲线和增长曲线 ,回归的预测或响应变量的曲线,图片,图表或其他复杂的数据对象,容纳不同的回归方法丢失的数据,非参数回归 , 贝叶斯方法进行回归,回归的预测变量的测量误差,预测变量的观测回归,回归和因果关系的推论与类型。理学院 统计系 课程实验论文2理学院 统计系 课程实验论文3第 1 章 一元线性回归1.1 指标的选择影响人口增长的主要因素经济因素,经济因素对人口自然增长
6、的作用主要表现在它决定了人口的增殖条件和生存条件,通过改变人口的出生率和死亡率来影响人口的自然增率。一般情况下,当人口数量不能满足经济发展对劳动力的需求时,人口自身的再生产必将会刺激;当人口数量超越了经济发展所能提供的消费总数后,人口自身的再生产必将受到遏制。在现代生产力水平下,人口的自然增长率往往随着经济水平的提高而下降。经济因素对人口机械增长也有重要影响。通常情况下,经济发达或发展速度较快的地区,对人口具有一种吸引力和凝聚力,人口机械增长为正值;相反,经济落后或经济发展速度缓慢的地区,对人口会产生一种排斥力和离散力,人口机械增长一般为负值。与此同时粮食产量、出生率、死亡率,也是影响人口增长
7、的因素。符号说明:用 、 、 、 表示粮食产量、GDP、出生率、死亡率。 表示1x234x y总人口。1.2 样本确定通过查阅中国政府网,得到了 1980 年到 2014 年各因素的数据。表 1-1 样本数据年份粮食产量(万吨)GDP(亿元)出生率(%)死亡率(%)总人口(万人)2014 60702.61 635910.2 12.37 7.16 1367822013 60193.84 588018.8 12.08 7.16 1360722012 58957.97 534123 12.1 7.15 1354042011 57120.85 484123.5 11.93 7.14 134735201
8、0 54647.71 408903 11.9 7.11 1340912009 53082.08 345629.2 11.95 7.08 1334502008 52870.92 316751.7 12.14 7.06 1328022007 50160.28 268019.4 12.1 6.93 1321292006 49804.23 217656.6 12.09 6.81 1314482005 48402.19 185895.8 12.4 6.51 1307562004 46946.95 160714.4 12.29 6.42 1299882003 43069.53 136564.6 12.41
9、 6.4 1292272002 45705.75 121002 12.86 6.41 1284532001 45263.67 110270.4 13.38 6.43 1276272000 46217.52 99776.3 14.03 6.45 1267431999 50838.58 90187.7 14.64 6.46 1257861998 51229.53 84883.7 15.64 6.5 124761理学院 统计系 课程实验论文41997 49417.1 79429.5 16.57 6.51 1236261996 50453.5 71572.3 16.98 6.56 1223891995
10、 46661.8 61129.8 17.12 6.57 1211211994 44510.1 48459.6 17.7 6.49 1198501993 45648.8 35524.3 18.09 6.64 1185171992 44265.8 27068.3 18.24 6.64 1171711991 43529.3 21895.5 19.68 6.7 1158231990 44624.3 18774.3 21.06 6.67 1143331989 40754.9 17090.3 21.58 6.54 1127041988 39408.1 15101.1 22.37 6.64 11102619
11、87 40297.7 12102.2 23.33 6.72 1093001986 39151.2 10308.8 22.43 6.86 1075071985 37910.8 9039.9 21.04 6.78 1058511984 40730.5 7226.3 19.9 6.82 1043571983 38727.5 5975.6 20.19 6.9 1030081982 35450 5333 22.28 6.6 1016541981 32502 4898.1 20.91 6.36 1000721980 32055.5 4551.6 18.21 6.34 987051.3 一元回归分析定义 1
12、.1 回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。理学院 统计系 课程实验论文51.3.1 绘制总人口与粮食产量的散点图图 1-1 粮食产量与总人口散点图1.3.2 设定理论模型根据图 1-1 随着粮食产量的增加,总人口的数量增加,且各样本点大致落在一条直线附近,故可以采用公式:(1-1)01yx一元线性回归理论模型,对数据进行一元回归分析。1.3.3 回归诊断表1-1 模型摘要模型 R R 平方 調整後 R
13、平方 標準偏斜度錯誤1 .909a .826 .821 4985.99669a. 預測值:(常數),粮食产量(万吨)根据表 1-1 模型摘要表可以看到, ,说明以粮食产量为唯一因变量与0.9r总人口的拟合程度很高。理学院 统计系 课程实验论文6表1-2 系数非標準化係數 標準化係數模型 B 標準錯誤 Beta T 顯著性(常數) 53054.404 5500.013 9.646 .0001粮食产量(万吨) 1.468 .117 .909 12.513 .000a. 應變數: 人口(万人)根据表 1-2 系数表,将系数带入公式(1-1)可得出回归模型公式: 5304.1.68yx用一元回归模型对
14、 2014 年的总人口进行预测,的到的预测值 14265.83y理学院 统计系 课程实验论文7第 2 章 多元线性回归定义 2.1 在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。2.1 数据中心化标准化数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。图 2-1 标准化结果2.2 多元回归模型建立多元回归模型公式: 012.pyxx对数据进行多元回归分析,结果如图 2.2表2-1 模型摘要模型 R R
15、 平方 調整後 R 平方 標準偏斜度錯誤1 .972a .944 .936 2967.56830a. 預測值:(常數),死亡率(%), 出生率(%), 粮食产量(万吨), GDP(亿元)理学院 统计系 课程实验论文8表2-2 變異數分析 a模型 平方和 df 平均值平方 F 顯著性迴歸 4448849243.984 4 1112212310.996 126.295 .000b殘差 264193847.616 30 8806461.5871總計 4713043091.600 34a. 應變數: 人口(万人)b. 預測值:(常數),死亡率(%), 出生率(%), 粮食产量(万吨), GDP(亿元)
16、表2-3 係數 a非標準化係數 標準化係數模型 B 標準錯誤 Beta T 顯著性(常數) 124574.667 21501.729 5.794 .000粮食产量(万吨) 1.045 .152 .647 6.893 .000GDP(亿元) -.005 .008 -.078 -.635 .531出生率(%) -1460.798 262.207 -.496 -5.571 .0001死亡率(%) -4060.272 3649.700 -.091 -1.112 .275a. 應變數: 人口(万人)根据表 2-1 可知 R=0.972,拟合度高,所以能用该模型进行预测,同时模型的检验 P 值 sig10
17、,表明可能存在多重共线性;(3)在相关系数矩阵中,死亡率数值接近 1 可能存在多重共线性;表2-6 排除共线性变量后的係數 a非標準化係數 標準化係數 共線性統計資料模型 B 標準錯誤 Beta T 顯著性 允差 VIF(常數) 165146.388 3543.313 46.608 .0001出生率(%) -2687.949 210.086 -.912 -12.794 .000 1.000 1.000(常數) 108407.805 8355.072 12.975 .000出生率(%) -1534.270 211.155 -.521 -7.266 .000 .400 2.5022粮食产量(万吨)
18、 .816 .116 .505 7.052 .000 .400 2.502(常數) 134678.878 14308.542 9.412 .000出生率(%) -1366.202 213.615 -.464 -6.396 .000 .349 2.868粮食产量(万吨) 1.012 .141 .626 7.184 .000 .241 4.1463死亡率(%) -5681.557 2580.897 -.127 -2.201 .035 .553 1.808a. 應變數: 人口(万人)理学院 统计系 课程实验论文11根据表 2-6,剔除 GDP 这一变量后,其余变量的 VIF 全部小于 10,排除变量
19、间存在多重共线性的原因,不需要再次剔除变量。得到剔除共线性后的多元线性回归方程: 134134678026.0581.7yxxx2.4 主成分分析定义 2.4 主成分分析(Principal Component Analysis ,PCA) , 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素) ,因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由 K.皮尔森对非随机变量引入的,尔后 H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或
20、方差来衡量。主成分分析的主要原理是寻找一个适当的线性变换:(1)将彼此相关的变量转变为彼此独立的新变量;(2)方差较大的几个新变量就能综合反应原多个变量所包含的主要信息;(3)新变量各自带有独特的专业含义。住成分分析的作用是:(1)减少指标变量的个数;(2)决多重相关性问题2.4.1 主成分分析模型建立运用 SPSS 22.0 对数据进行主成分分析表2-7 各变量所占权重起始特徵值 擷取平方和載入元件 總計 變異的 % 累加 % 總計 變異的 % 累加 %1 3.040 76.004 76.004 3.040 76.004 76.0042 .727 18.176 94.1793 .152 3.
21、793 97.9724 .081 2.028 100.000擷取方法:主體元件分析。根据主成分分析结果可以看出前两个变量所占比重最多,二者的和所占比例为,所以可以采用前两个变量建立回归模型。9.18%表2-8 回归係數 a非標準化係數 標準化係數模型 B 標準錯誤 Beta T 顯著性1 (常數) 53075.711 9733.191 5.453 .000理学院 统计系 课程实验论文12粮食产量(万吨) 1.468 .235 .908 6.252 .000GDP(亿元) 2.494E-5 .009 .000 .003 .998a. 應變數: 人口(万人)根据表 2-8,得到回归方程:51253
22、07468.9*0yxx根据回归方程预测出 2014 年人口 万人。27y因为:1.主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上) ,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义) 。 2.主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数通常应明显小于原始变量个数 (除非 本身较小) ,否则维数降低的“利”可mp能抵不过主成分含义不如原始变量清楚的“弊” 。所以预测的结果出现了更大
23、的误差理学院 统计系 课程实验论文13第 3 章 非线性模型3.1 曲线回归定义 3.1 非线性回归是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式) 。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。确定两个变数间数量变化的某种特定的规则或规律;估计表示该种曲线关系特点的一些重要参数,如回归参数、极大值、极小值和渐近值等;为生产预测或试验控制进行内插,或在论据充足时作出理论上的外推。3.1.1 曲线拟合对国内总人口的拟合,选取总人口指标为因变量
24、,单位为万人,拟合总人口关于时间 t 的趋势曲线。以 1980 年为基准年,取值为 ,2014 年 。1t35t绘制总人口与变量 的散点图,如图 3-1 所示。t图 3-1 总人口对 的散点图t从散点图可以看到,总人口大致符合三次函数形式,当人口的增长速度大致相同时,其趋势线就是三次函数形式。理学院 统计系 课程实验论文14图 3-2 拟合曲线图通过观察图 3-2,发现三次曲线模型拟合度最好,其次为线性和复合模型,故根据公式:2301ybtbt建立三次曲线模型。表3-1 模型摘要R R 平方 調整後 R 平方 標準偏斜度錯誤1.000 .999 .999 365.498自變數為 时间。表3-2
25、 變異數分析平方和 df 平均值平方 F 顯著性迴歸 4708901835.390 3 1569633945.130 11749.732 .000殘差 4141256.210 31 133588.910總計 4713043091.600 34自變數為 时间。表3-3 三次曲线系数非標準化係數 標準化係數B 標準錯誤 Beta T 顯著性时间 1849.094 65.501 1.609 28.230 .000时间 * 2 -17.683 4.196 -.571 -4.214 .000时间 * 3 -.070 .077 -.076 -.908 .371(常數) 96103.588 276.157
26、348.004 .000根据图表 3-1,得到三次函数模型的 ,说明拟合程度非常好;同时1.0R理学院 统计系 课程实验论文15根据表 3-2 可知,方程整体都通过了显著性检验;根据表 3-3 可知,不但方程整体通过了显著性检验,每个不同次幂的 也经过了显著性检验,所以建立的三次t方程式完全符合实际情况的。根据第三个表建立出三次函数方程: 231849.07.680.7yttt同时得出 2014 年预测值 万人,预测值与真实值相差36万人。607.51e预测值与真实值相差程度远小于运用线性多元回归方法、逐步回归法和主成分分析后的预测值与真实值之间的差异,进一步证明建立的三次函数模型符合实际情况
27、。3.2 Logistic 模型Logistic 模型增长公式为:(1)abttmpe其中 为时刻的人口总数, 为人口极限规模, 为自然对数的底, 为时刻tp t长度, 、 为待定参数。abLogistic 模型考虑到人口总数增长的有限性,提出了人口总数增长的规律即随着人口总数的增长,人口增长率逐渐下降,但对于在短期内如 30-50 年内人口增长可能呈上升趋势如人口生育率上升、死亡率下降等原因而导致人口呈上升趋势。Logistic 模型在应用中对时间长,人口数据变化大,因此误差较大且不稳定。而小城镇人口的变化就存在人口数据变化较大的特点,所以 Logistic 模型对小城镇人口的预测并不适合。
28、用对人口进行 Logistic 曲线拟合,运用命令:x=2014 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 1990 1989 1988 1987 1986 1985 1984 1983 1982 1981 1980y=136782 136072 135404 134735 134091 133450 132802 132129 131448 130756 129988 129227 128453 12762
29、7 126743 125786 124761 123626 122389 121121 119850 118517 117171 115823 114333 112704 111026 109300 107507 105851 104357 103008 101654 100072 98705x=x;y=y;st_ = 2000 127627 1;(在 x,y 内任意取的数)ft_ = fittype(a/(1+b*exp(-k*(x-1980) ,.dependent,y,independent,x,.理学院 统计系 课程实验论文16coefficients,a, b, k);cf_ = f
30、it(x,y,ft_ ,Startpoint,st_)最后运行出的结果:cf_ =General model:cf_(x) = a/(1+b*exp(-k*(x-1980)Coefficients (with 95% confidence bounds):a = 1.217e+005 (1.144e+005, 1.29e+005)b = 1.176e+005 (-4.741e+009, 4.742e+009)k = 13.21 (-4.032e+004, 4.035e+004)根据运行结果,得到 Logistic 拟合方程:1.2705.6*exp(3.1(980 )1yx其中 a 为人口上线
31、的估计值,因为在 1995 年人口的实际值就已经超过了预测上限,所以该模型不是和用于预测未来的人口。造成模型不准确的原因主要是数据过少,且人口数据多数来自抽样调查,数据本身存在一定误差。理学院 统计系 课程实验论文17结 论通过不同的模型建立方法对获得的人口数据建立了多个不同的预测模型;经过对比发现三次曲线模型是最符合实际运用的;导致其他模型不适用的原因主要为:(1)目前我国的人口出生率低、死亡率低、自然增长率低这表明我国将进入“低、低、低”现代人口再生产类型的行列;即我国今后的人口数量趋势大致会成为一条水平线。(2)自 20 世纪 70 年代初期大力推行计划生育政策以来,中国人口过快增长的势
32、头得到了有效遏制由于中国人口基数大,青少年的比重较高,在今后一段较长的时期内,人口总量还将持续增长,在经历高峰期后,人口总数才会呈缓慢下降的趋势;本次分析采用的数据为 1980 年到 2014 年,数据受到政策影响较大。通过对模型趋势线的观测,发现在未来一段的时间内我国的人口都将处于缓慢增加的状态,到 2025 左右年会达到峰值。理学院 统计系 课程实验论文18参考文献1宋佩锋. 人口预测方法比较研究D. 安徽大学,2013. 2李朝旗,周兴 . 土地利用规划中的人口预测方法综述J. 国土资源科技管理,2006,02:64-69. 3王越,尚长春 ,郭召,唐年胜,赵慧. 云南省人口老龄化预测及
33、其实证分析A. 中国统计教育学会.2015 年(第四届)全国大学生统计建模大赛论文C.中国统计教育学会:,2015:24. 4李强,张震 ,吴瑞君. 概率预测方法在小区域人口预测中的应用以上海市青浦区为例J. 中国人口科学,2015,01:79-88+127-128. 5杜悦凡. 小城镇总体规划中人口预测方法研究D.合肥工业大学,2014. 6汤江龙. 土地利用规划人工神经网络模型构建及应用研究D.南京农业大学,2006. 7侯银莉. 湖南省人口数量及结构的预测研究D.中南大学,2010. 8蒋赛. 黑龙江省人口数量与结构的预测研究D.哈尔滨工业大学,2013. 9韩玉涛. 中国人口预测的半参
34、数模型D. 河南科技大学,2011. 10刘云刚,王丰龙 . 快速城市化过程中的城市建设用地规模预测方法J. 地理研究,2011,07:1187-1197. 11王硕. 基于流域尺度的可持续复合水生态承载力研究D.大连理工大学,2014. 12陈昉源. 湖北省人口中长期变化趋势灰色组合模型预测研究D.华中农业大学,2006. 13李传新. 城市总体规划中人口预测方法的应用D.内蒙古师范大学,2011. 14姜英霞. 中国城镇职工社会养老保险基金未来收支缺口的精算预测D.山东财经大学,2013. 15苑亚坤. 区域经济发展与人口流动关系的实证模型研究D.天津财经大学,2013. 16王学义,曾祥旭 . 对我国近年来人口预测研究的述评J. 理论与改革,2007,06:157-160. 17王楠. 区域视角下城市人口规模预测方法研究D.西安建筑科技大学,2011. 18李宏伟. 基于 GIS 的人口信息管理系统研究D.江西理工大学,2010. 19陈斌. 福建省人口构成动态仿真及分析D. 福建农林大学,2006. 20余志飞. 基于 GIS 与 BP 神经网络的人口预测与信息管理系统开发研究 D.江西理工大学,2015. 理学院 统计系 课程实验论文19