1、本科课程设计论文统计软件课程设计设计题目:基于 SAS 人口预期寿命影响因素分析班 级: 统 计 1105 姓 名: 吴 惠 指导教师: 缪 宁 12014 年 6 月 14 日摘要:人均预期寿命是衡量一个社会的经济发展水平及医疗卫生服务水平的指标,与性别地区有着密切的联系。为了清楚地反应全国各个地区的人口平均预期寿命,为了国家领导人做出经济决策,为了为国家医疗卫生建设提供可靠依据,有关人员根据人口普查数据计算了各地区的人均预期寿命。现收集了全国 31 个地区的人均预期寿命,运用 SAS 分析的方法,对选取的数据进行分析,比较不同地区人均预期寿命的差异,并研究地区等因素对其影响。结果分析表明像
2、上海、浙江、广东这样的发展地区以及海南,云南这样生活环境优美的水乡之地人均预期寿命就要比贵州等偏远地区的长。 关键词:人口平均预期寿命 地区 地理位置 2目录摘要 1前言 3一、研究背景 4二、模型设定 6(一)数据性质的选择 .6(二)影响因素的分析 .61、经济因素 .62、医疗卫生服务水平 .6三、资料的收集 7四、资料分析 8(一)描述统计量 8(二)绘制散点图 9(三)回归分析 111、逐步回归法 112、残差图 12(四)多重共线性 131、多重共线性 132、 多重比较 14(五)对选择的因素与各省人均预期寿命进行相关性分析 .151、简单相关系数的计算 15(六)各省人均寿命与
3、各因素的系统聚类分析 .171、系统聚类法 172、谱系图 193、正态性检验 20(七)各省人均寿命与各因素的主成分分析 .211、简单统计量 212、样本相关矩阵 223、样本相关矩阵特征值 224、特征向量 22五、结论及建议 .23(一)结论 .23(二)政策建议 .23参考文献: .243前言人口平均预期寿命(Life expectancy)是指假若当前的分年龄死亡率保持不变,同一时期出生的人预期能继续生存的平均年数。它以当前分年龄死亡率为基础计算,但实际上,死亡率是不断变化的,因此,平均预期寿命是一个假定的指标。这个指标与性别、年龄、种族有着紧密的联系,因此常常需要分别计算。平均预
4、期寿命是我们最常用的预期寿命指标,它表明了新出生人口平均预期可存活的年数,是度量人口健康状况的一个重要的指标。 寿命的长短受两方面的制约。一方面,社会经济条件、卫生医疗水平限制着人们的寿命,所以不同的社会,不同的时期,寿命的长短有着很大的差别;另一方面,由于体质、遗传因素、生活条件等个人差异,也使每个人的寿命长短相差悬殊。因此,虽然难以预测具体某个人的寿命有多长,但可以通过科学的方法计算并告知在一定的死亡水平下,预期每个人出生时平均可存活的年数。这就是人口平均预期寿命。它是运用科学的计算方法计算出来的。在过去的 10 年里,虽然各省的人均预期寿命都显著提高,但各省之间仍存在一定的差别。人体健康
5、的决定性因素主要包括:医药、卫生、教育、常识和理性行为、经济状况和收入水平、环境因素。为了对中国各省人均寿命的影响因素进行研究,分别从经济、医疗、自然地理位置、环境质量方面选取了 3 个因素的数据进行研究分析,得出了一些可靠地结论。4一、研究背景:据一些专家估计,50 年代初,我国人口的预期寿命在 48 岁左右。新中国成立以来,中国在加速工业化和现代化进程中,迅速完成了第一次卫生革命,即基本上控制并消除严重的传染病和寄生虫病。改革开放以来,中国有效地控制和防治各类传染病,其发病率和病死率降至历史低点,人民的卫生健康环境有了更加明显的改善,人口预期寿命提高迅速。据计算,我国人口男性预期寿命在19
6、821983 年为 63.49 岁,女性为 66.77 岁,1990 年为 66.35 岁,女性为69.43 岁,19992000 年男性为 68.82 岁,女性为 71.95 岁,说明,随着我国社会经济的健康快速发展,人民生活水平和生活质量不断得到提高,与此同时医疗卫生事业也不断取得新的进展,从而有效地降低了死亡率,保障了健康水平的提高 【1】 。第五次全国人口普查显示,2000 年中国人口平均预期寿命已达 71.4 岁,10 年间,提高了 2.85 岁。中国人口的平均预期寿命比世界平均水平高 5 岁,比发展中国家和地区高 7 岁 【2】 。 从地区来看,东部 11 个省、直辖市的人口平均预
7、期寿命均接近或超过 73 岁,普遍高于中部和西部地区;西部 12 个省的人口平均预期寿命较低,除广西、重庆、四川、陕西和宁夏外都低于 70 岁;中部地区 8 个省的人口平均预期寿命基本 在 7073 岁。20 世纪 90 年代以后,许多学者利用一国跨地区截面资料研究了收入不平等和地区之间的健康差异的关系,其结论并不完全一致。大部分学者认为收入不平等对人口健康状况产生了负面影响,较高的收入不平等与较高的婴儿死亡率、较高的低出生体重率以及较低的预期寿命联系在一起。如(Kap1an,1996;Kennedy and Kawachi,1996;Wilkinson,Kawachi and Kennedy
8、,1998;lynch,1998 等)。他们认为收入不平等可能反映了社会凝聚力(social cohesion)或者社会资本的恶化,而个人的健康状况不仅仅对于绝对收入水平的升降有反映,对于一些相对性的概念,诸如相对剥夺、相对收入或者相对社会地位的变动也会有所反映。马磊,余振华在中国平均预期寿命的影响因素分析中指出影响人类预期寿命的因素主要有遗传和体质因素,生活水平,医疗卫生服务水平,人口受教育水平四大方面。为了更准确地说明各因素对预期寿命的影响,他们将人均GDP (取自然对数)、婴儿死亡率和文盲率看成原因变量,人均预期寿命当做结果变量,试图建立多元线性回归模型。 通过模型结果,他们得出,经济发
9、展水平,医疗卫生服务水平,教育水平,都对对预期寿命的显著作用。他们根据5模型的定量分析给出了一些政策建议。强调经济增长,同时还要努力提高教育和医疗卫生服务水平。乔轶娟在我国人均寿命影响因素计量分析中指出影响人均寿命的因素有以下几个方面:一是从经济状况来看,人均 GDP、年人均消费性支出。二是医疗卫生方面,选取人均拥有的卫生机构数、财政上用于卫生经费的年人均额。三是教育水平因素,选取每百人中有高中及高中以上教育水平的人数作为指标。四是人口内部的影响因素,考虑到各地普遍存在女性平均预期寿命大于男性,将男女性别比作为一项指标(以女性人数为基数);另将出生率作为一项指标是考虑到越是偏远山区和少数民族地
10、区出生率可能越高,寿命反而可能越低。五是自然环境因素,将各省市自治区划分为东部、西部,以东、西之分作为影响因素。六是其他影响因素,选取城镇人口比重,平均每个家庭户的人口数。搜集数据,进行相关性分析,建立人均预期寿命模型。得出结论,影响人均寿命的不只是一两个变量,而是一系列变量。文章所选取的 1 0 个指标从相关性判断,都影响人均预期寿命,但由于解释变量之间的相关性,采用所有的因素会影响判断,因此在建立模型中只能就重避轻,将一些影响不太显著的变量剔除,留下影响最显著的两个变量:人均 GDP 和出生率。所以,提高我国人均期望寿命的方法就是对影响寿命的因素施加影响,使人均寿命变量正向变化。6二、模型
11、设定 研究中国人均预期寿命的影响因素需要考虑以下几个方面: (一)数据性质的选择 由于时间序列数据在反映人均预期寿命上不显著,相比而言,各地区的截面数据更具有代表性和显著性,所以,本文选择了全国 31 个省市(除港澳台地区)的截面数据为分析对象。 (二)影响因素的分析 根据实践经验,有众多因素会影响人均预期寿命。1、 经济因素 GDP 指标是一个国家或地区经济发展状况的重要标志,也是影响一个国家或地区人口预期寿命的基础因素。随着经济的发展,人均 GDP 呈现明显增长趋势,随着人们收入水平的提高,人们对食物等方面的支出会随之增加,这自然对提高预期寿命有重要作用。同时,随着人均 GDP 的增加,人
12、们生活水平提高, 会减少对质量差的低档食物的需求,会增加对质量合格的优质食品的消费,这对改善人们的健康状况、提高预期寿命有很大影响。 2、 医疗卫生服务水平 医疗卫生事业的发展能够改善人口的健康状况, 使人民免遭疾病的侵袭。自二战以来,人口平均预期寿命迅速提高的重要原因之一就是一些国家进口了廉价而先进的医疗技术及药品。解放后,中国卫生事业迅速发展,成功地消灭或基本消灭了一些解放前严重威胁人民身体健康的烈性传染病,如霍乱、鼠疫、天花等,使全国人民的健康状况越来越好,特别是在广大农村,医疗卫生服务的进步有效地提高了农村人口预期寿命。 因此,本文将“人均 GDP”、 “卫生机构数” 、 “单位面积污
13、染比”三个因素作为模型的解释变量。 7三、资料的收集 本文获取了 31 个省市的资料,如下表:变数地区人口预期寿命 (岁)Y人均 GDP(万元)X1卫生机构数 (个)X2单位面积污染比X3北京 76.1 70234 9734 18440天津 4.91 63395 4238 14822.0339河北 72.54 24583 80963 4978.78788山西 71.65 20779 39917 4070.55215内蒙古 69.87 37287 22677 387.642276辽宁 73.34 34193 34729 6205.26316吉林 73.1 25906 18543 1580.512
14、82黑龙江 72.37 21593 21825 884.662577上海 78.14 77205 4460 89086.6873江苏 73.91 43907 30571 8484.11215浙江 74.7 44895 29549 6140.56604安徽 71.85 16656 24799 2720.68966福建 72.55 33106 26613 2262.4江西 68.95 15921 34005 1275.86207山东 73.92 35893 63885 7659.74843河南 71.54 21073 75722 4273.56322湖北 71.08 22050 32790 290
15、9.74359湖南 70.66 19355 55200 1629.68037广东 73.27 39978 44314 4291.75258广西 71.29 16576 32355 1872.76423海南 72.92 18760 4661 1225.9887重庆 71.73 20219 16497 2234.19204四川 71.2 17289 72914 940.748031贵州 65.96 9214 24707 2193.22034云南 65.49 13687 22365 668.856448西藏 64.37 15294 4959 1.18110236陕西 70.07 20497 3392
16、8 1111.68224甘肃 67.47 12882 25299 597.014925青海 66.03 18346 5959 80.9333333宁夏 70.17 19642 4149 2088.150298新疆 67.41 19119 14244 116.407186数据源:(1) 中国统计年鉴2009 年 (2)国家统计局网站 http:/ b;input district $ y x1-x3;cards;北京 76.1 70234 9734 18440天津 4.91 63395 4238 14822.0339河北 72.54 24583 80963 4978.78788山西 71.65
17、20779 39917 4070.55215内蒙古 69.87 37287 22677 387.642276辽宁 73.34 34193 34729 6205.26316吉林 73.1 25906 18543 1580.51282黑龙江 72.37 21593 21825 884.662577上海 78.14 77205 4460 89086.6873江苏 73.91 43907 30571 8484.11215浙江 74.7 44895 29549 6140.56604安徽 71.85 16656 24799 2720.68966福建 72.55 33106 26613 2262.4江西 6
18、8.95 15921 34005 1275.86207山东 73.92 35893 63885 7659.74843河南 71.54 21073 75722 4273.56322湖北 71.08 22050 32790 2909.74359湖南 70.66 19355 55200 1629.68037广东 73.27 39978 44314 4291.75258广西 71.29 16576 32355 1872.76423海南 72.92 18760 4661 1225.9887重庆 71.73 20219 16497 2234.19204四川 71.2 17289 72914 940.748
19、031贵州 65.96 9214 24707 2193.22034云南 65.49 13687 22365 668.856448西藏 64.37 15294 4959 1.181102369陕西 70.07 20497 33928 1111.68224甘肃 67.47 12882 25299 597.014925青海 66.03 18346 5959 80.9333333宁夏 70.17 19642 4149 2088.15029新疆 67.41 19119 14244 116.407186;proc means data=b maxdec=2mean std max min range cv
20、 skewness; /*利用 MEANS 过程计算描述统计量*/var y x1-x3;run;图 1由图 1 可知,各人均预期寿命的样本均值为 68.99,样本标准偏差为12.29,样本中人均预期寿命的最大值为 78.14,最小值为 4.91,斜度为-5.01。(二)绘制散点图proc gplot data =b;/*对数据集b绘制散点图*/plot y*x1;/*纵坐标为y,横坐标为x1绘图*/plot y*x2; /*纵坐标为y,横坐标为x2绘图*/plot y*x3; /*纵坐标为y,横坐标为x3绘图*/symbol color=red i=jion v=star ci=blue;
21、/*绘图的颜色为红色,连直线,点符号为*,联机的颜色为蓝色*/run;10图 2由图 2 可知,x1 与 y 的线性关系,随 x1 的增加,y 也在增加,所以认为呈正相关关系。图 3由图 3 可知,x2 与 y 的线性关系不太明显,随 x2 的增加,y 趋于平稳。11图 4由图 4 可知,x3 与 y 的线性关系,随 x3 的增加,y 也在增加,所以认为呈正相关关系。(三) 回归分析1、逐步回归法逐步回归的基本思想是:首先在待选的 M 个变量中选择一个对因变量影响最大的自变量,这可以通过因变量与每一自变量进行回归得到的 F 值来判断。若最大的 F 值在给定的显著性水平下是显著的,则该变量被选中
22、,否则选元结束。proc reg data=b; /*利用 REG 过程进行回归分析*/model y=x1-x3 /selection=stepwise sls=0.05 sle=0.2 r; /*采用逐步筛选法建立回归模型*/run;12图 5由图 5 可知,变量 X2 被加入到模型中,说明三个自变量分别关于 Y 回归,其中由 X2 与 Y 回归得到的 F 统计量值最大,为 1.96,对应的概率为 0.1725,在0.05 的显著性水平下没有通过检验。2、残差图proc reg data=b; /*利用 REG 过程进行回归分析*/model y=x1 x2 x3; /*以 y 为因变量,
23、以 x1、x2 和 x3 为自变量建立回归模型*/plot student.*p.=*;/*以标准化的残差值为纵轴,因变量的预测值为横轴绘图*/run;13图 6(四) 多重共线性1、 多重共线性指在多元回归分析中自变量之间存在线性关系,用数学术语来表达就是系数矩阵的秩=之后已经超过 0.7,所以应当尤其认真考虑分为 5、4、3、2 类的可能。 (3)PSF 为伪 F 统计量,是模拟与方差分析中的 F 统计量,它衡量了 k 个分类时的聚集效果,F 越大说明分类效果越好。因此 NCL 越大 F 一般是越大的,纵观所有的 F 统计量,并没有 F 统计量随着类个数减少反而增多的反常情况,但是在 NC
24、L=7 时,其与其上的相邻 F 统计量差有 16.2;NCL=5 时,与 NCL=4 的19相邻 F 统计量差有 17.4,相比其他的相邻 F 统计量差值明显较大,应当引起注意,故应当考虑分类为 4 或 5 类的可能。 (4)PST2 为伪 t 方统计量,模拟方差分析中的 t 方统计量,用来衡量合并两个类的效果,如果 t 方较大,则说明合并两个类的效果不好,应该取合并前的那个分类。观察商标,发现当 NCL=4 时 t 方最大,NCL=3 时次大,NCL=5 时第三大,其他的在 NCL=6、9、时也比较大,故应当考虑分类为 2、3、5 类的可能。综合上述四个统计量的分析,我们暂时认为,分为 5
25、类可能是最佳选择。2、谱系图:proc tree horizontal; /*利用TREE过程,绘制横向聚类谱系图*/id district;run;图 13由图 13 可知:结合由 Cluster 输出的聚类统计量分析,我们最终认为分成4 类较为合适,最终分类结果如下:第一类:天津 第二类:上海 20第三类:河北、河南、山东、四川、湖南、第四类:北京、内蒙、福建、辽宁、广东、江苏、浙江、山西、吉林、黑龙江、宁夏、青海、甘肃、新疆 安徽、江西、云南、重庆、西藏、贵州、海南、广西、湖北从聚类结果来看,类的划分还是体现出了一些地域的特征的。天津、上海分别单独为一类,处于东部发达地区,但医疗机构数太
26、少。第三类为河北、河南、山东、四川、湖南,处于经济较发达地区,医疗机构数相对较多。第四类宁夏、内蒙等地经济较落后,医疗机构数相对较少。3、正态性检验 所谓正态性检验是指检验各个水平下的总体是独立地服从于正态分布的,即对每一个水平观测资料是正态分布的随机样本。通过 SAS 分析的结果如下:data sample; /*建立数据集 sample,以进行两样本的比较*/set b; /*读入数据集 b*/if district in (内蒙古 广西 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆)then region=西部;else region=东部; /*通过 IF 语句定义变量
27、region,用来区分东部和西部地区*/run;proc univariate data=sample normal; /*利用 UNIVARIATE 过程进行正态性检验*/var y; /*指出要检验的变量是 y*/class region; /*指出分类变量为 region,用来区分两个样本*/run;图 1421由图 14 可知,西部地区检验统计量的概率 P 值大于显著性水平 0.05,说明接受原假设,即服从正态分布。由上检验结果可以看出都通过了显著性检验,即满足方差分析的假设条件。图 15由图 15 可知,东部地区检验统计量的概率 P 值小于显著性水平 0.05,说明拒绝原假设,即不服
28、从正态分布。(七)各省人均寿命与各因素的主成分分析proc princomp data =b out =prin;/*对数据集b进行主成分分析,输出新的数据集prin*/var y x1-x3;/*分析变量为y,x1,x2*/proc sort;/*对数据集进行排序*/by prin1;/*对prin1升序排列*/proc print;id district;/*识别输出观测的观测值district*/var prin1 prin2; /*输出数据列表prin1 prin2*/proc sort;by prin2; /*对prin2升序排列*/proc print;id district;va
29、r prin1 prin2; /*输出数据列表prin1 prin2*/run;1、简单统计量图 16由图 16 可知, 给出了变量的简单统计量。图中可以看出 X2 医疗机构数高22出其他变量,说明医疗卫生对人口平均预期寿命有很大影响,人均 GDP 影响较大。2、样本相关矩阵图 17由图 17 可知,各变量之间的相关性,y 与 x1 成负相关,而 y 与 x2 和 x3成正相关;x1 与 x2 成负相关,与 x3 成正相关;x2 与 x1 和 x3 成负相关。3、 样本相关矩阵特征值图 18由图 18 可知,特征值,相邻两特征值之差,每个主成分的贡献率和前几个主成分的累计贡献率。可知前两个主成
30、分的特征值大于 1,前两个主成分的雷击贡献率达到 75%以上。4、特征向量图 19由图 19 可知,给出了相关系数的特征向量,由最大特征值所对应的特征向量我们可以知道各个主成分的表达式。Prin1=0.651621X1-0.378154X2+0.616913X3 Prin2=0.178764X1+0.491585X2+0.391777X323Prin3=0.271096X1+0.780607X2-0.015562X3Prin4=0.685522X1-0.077437X2-0.682413X3五、结论及建议(一)结论 1、人均 GDP 对人均预期寿命存在显著影响,原因在很大程度上取决于政府的政策
31、取向。 2、卫生机构数量对人均预期寿命存在影响影响。原因在于卫生机构数量越多,人民获得医疗能力会进一步增强,从而整体健康水平会有显著提高,相应地,人均预期寿命也会提高。 3、单位面积污染比对人均预期寿命的影响不显著,原因在单位面积污染比是一个滞后性的资料,但它往往是影响人口预期寿命的一个因素。(二)政策建议1、各省市应合理确定公立医院功能、数量、规模、结构和布局;大力发展非公立医疗机构;优先建设发展县级医院;提高医保报销比例;建立重特大疾病保障机制等实施措施。这些措施从疾病预防和治疗上为实现人均寿命增长提供了医疗保障,但是,要真正提高寿命,最主要的是提高食品质量、改善膳食结构、提高人们的保健意识。良好的身体素质是延长寿命的根源。2、提高人民生活水平,大力发展经济建设,增加人均 GDP, 有利于人民安居乐业,从而国泰民安。 3、注重卫生条件的改善,提高食品健康、居住卫生等公共卫生条件有利于增加人口寿命, 建造和谐社会。 4、 加大环境污染的治理,改善人民生活环境也有利于增加人口寿命。 24参考文献: (摘自:人口学刊 )崔红艳我国人口平均预期寿命解析 中国信息报() 中华人民共和国统计局年统计年鉴 北京:中国统计出版社,中华人民共和国统计局年统计年鉴 北京:中国统计出版社,中华人民共和国统计局年统计年鉴 北京:中国统计出版社,联合国环境规划署全球环境展望 北京:中国环境科学出版社,