收藏 分享(赏)

sas数据处理结课论文—城市居民消费价格指数 徐丹丹.doc

上传人:cjc2202537 文档编号:1136742 上传时间:2018-06-14 格式:DOC 页数:13 大小:2.84MB
下载 相关 举报
sas数据处理结课论文—城市居民消费价格指数  徐丹丹.doc_第1页
第1页 / 共13页
sas数据处理结课论文—城市居民消费价格指数  徐丹丹.doc_第2页
第2页 / 共13页
sas数据处理结课论文—城市居民消费价格指数  徐丹丹.doc_第3页
第3页 / 共13页
sas数据处理结课论文—城市居民消费价格指数  徐丹丹.doc_第4页
第4页 / 共13页
sas数据处理结课论文—城市居民消费价格指数  徐丹丹.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、SAS数据分析案例分析城市居民消费价格指数班级:数学 111姓名:徐丹丹学号:110008城市居民消费价格指数(Urban Consumer Price Index),是反映城市居民家庭所购买的生活消费品价格和服务项目价格变动趋势和程度的相对数。城市居民消费价格指数可以观察和分析消费品的零售价格和服务项目价格变动对职工货币工资的影响,作为研究职工生活和确定工资政策的依据, 是用来反映通货膨胀(紧缩)程度的指标。 2013 年 10 月-2014 年 10 月全国分地区居民消费价格指数主要经济指标地区 2014年10月 2014年9月 2014年8月 2014年7月 2014年6月 2014年5

2、月 2014年4月 2014年3月 2014年2月 2014年1月 2013年12月 2013年11月 2013年10月北京 100.5 101.1 101.5 101.8 102.2 102.1 101.5 102.1 101.8 103.3 102.7 103.3 103.4天津 100.7 101.0 101.3 101.3 101.9 102.4 101.9 102.9 102.4 103.4 103.3 103.9 104.3石家庄 101.7 102.3 102.8 102.6 103.0 102.9 101.2 101.8 101.0 100.9 101.0 102.4 103.

3、3太原 100.2 101.7 102.1 102.5 103.3 103.3 103.2 104.0 102.1 102.4 102.3 104.1 104.8呼和浩特 100.8 100.5 101.2 101.4 101.5 101.2 100.5 101.7 101.7 101.5 103.1 103.8 104.2沈阳 102.1 102.3 103.2 103.1 103.0 103.0 101.9 101.8 100.7 101.8 101.7 102.2 102.0大连 101.3 101.0 102.0 102.1 102.4 103.1 102.6 102.3 101.6

4、101.9 101.8 102.7 102.6长春 102.1 101.5 102.0 102.2 102.5 102.5 102.3 102.2 102.2 102.8 102.1 102.5 102.9哈尔滨 101.5 101.2 102.0 101.9 102.4 103.7 102.9 102.6 100.6 102.2 102.4 103.7 102.7上海 102.4 102.7 102.6 103.0 102.6 102.9 102.3 102.5 102.7 103.0 102.4 102.4 102.6南京 102.4 102.8 102.7 102.7 102.3 102

5、.8 101.8 102.6 103.2 103.4 103.8 103.9 103.9杭州 101.0 101.4 102.3 102.6 102.5 102.5 102.2 103.1 102.5 102.8 102.9 103.1 103.1宁波 101.0 101.5 102.4 102.3 102.2 102.4 102.1 102.4 102.0 102.7 102.9 103.0 103.4合肥 101.7 102.0 102.2 102.1 102.2 102.6 101.9 102.3 102.3 102.5 102.5 103.1 103.7福州 100.8 101.0 1

6、01.9 102.3 101.9 102.0 101.2 102.6 101.4 102.6 102.8 104.1 104.6厦门 100.5 100.3 101.4 102.3 102.9 103.6 103.2 103.9 102.5 103.2 102.9 103.5 104.2南昌 101.5 102.2 102.1 102.3 103.7 103.8 103.0 103.8 103.4 102.6 103.1 103.1 103.1济南 102.0 102.4 102.5 102.8 103.2 102.5 101.9 102.5 101.4 101.1 101.4 101.8 1

7、02.6青岛 102.3 102.8 103.0 104.1 103.9 103.4 102.6 102.4 100.9 102.2 102.3 103.3 103.3郑州 102.1 102.1 102.4 102.4 102.4 102.3 101.6 102.1 101.3 102.3 102.5 103.4 103.4武汉 101.9 102.0 101.6 102.0 101.7 101.9 101.6 102.1 102.2 102.4 102.0 102.2 102.5长沙 101.9 102.2 102.8 103.0 102.9 102.6 101.9 103.2 103.8

8、 104.6 104.2 104.5 104.5广州 102.1 102.0 102.4 102.9 102.6 102.5 101.5 102.8 102.6 102.4 101.9 102.2 102.4深圳 101.2 100.7 101.2 102.0 102.5 102.8 102.1 102.9 103.0 103.5 103.2 103.3 103.5南宁 100.4 100.5 101.3 102.0 101.9 102.0 102.5 102.8 101.9 102.8 103.3 103.4 103.5海口 101.8 102.2 101.8 102.6 101.9 101

9、.8 101.8 102.9 103.2 103.5 103.5 104.0 103.9重庆 102.2 101.6 101.7 101.9 102.0 101.8 101.2 101.8 101.5 101.9 102.0 102.5 102.5成都 101.0 101.1 101.5 101.7 102.1 101.3 100.3 101.2 101.0 101.7 102.3 103.4 103.8贵阳 101.8 102.5 103.0 103.8 104.0 103.6 102.5 102.4 100.9 102.2 102.2 103.0 103.0昆明 104.0 104.2 1

10、03.7 103.1 102.8 101.7 101.3 102.8 102.6 103.2 102.9 103.3 103.5西安 100.5 100.8 101.7 101.9 101.4 101.8 101.0 102.3 102.0 102.9 102.4 102.8 103.4兰州 102.0 102.0 101.9 101.8 101.6 101.9 101.7 102.4 102.2 102.7 102.5 103.5 103.8西宁 103.6 103.9 103.3 102.0 102.0 102.5 102.1 102.2 102.5 103.2 101.6 102.4 1

11、02.7银川 102.1 102.7 102.9 102.1 101.5 101.0 101.4 102.3 102.4 102.7 103.1 103.3 103.5乌鲁木齐 101.6 102.3 103.2 103.4 103.5 103.4 102.8 103.9 102.8 103.7 103.0 103.7 103.9(数据来源于中国统计局)根据此表解决以下问题:1)用最长距离法对这35个城市进行谱系聚类,画出谱系图,并分类。2)对数据进行主成分分析,分析出贡献率最高的月份,同时可以根据贡献率分析出13个月的居民消费水平的发展情况,然后根据主成分对城市进行排序。3)用SAS系统PR

12、OC UNIVARRIATE 过程计算每个月份的均值、方差、标准差、变异系数、偏度、峰度等数据特征 ,了解城市之间的差异。先根据此表中的数据对全国各分区做聚类分析:聚类分析是研究“物以类聚”的一种科学有效的方法,由实验测试得到的数据是原始数据,原始数据是没有进行分类的、无规律的、错综复杂的变量,要使得这些数据能够反映出一定的规律性或特殊的分类性,需要对数据或变量进行聚类分析,以使数据或变量呈现一定的分门别类的特征。聚类分析的一般做法是:先确定聚类统计量,然后利用统计量对样品或者变量进行聚类,对 n个样品进行聚类的方法称为 Q型聚类,常用的统计量称为“距离” ;对 m个变量进行聚类的方法称为 R

13、型聚类,常用个统计量称为“相似系数” 。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。聚类分析程序:data shuju;run;proc print data=shuju;run;proc cluster data=shuju method=com nonorm outtree=y1;id diqu;run;proc tree data=y1 space=1 horizontal nclusters=3 out=z1;run;proc print d

14、ata=z1;run;结果:(最长距离法)以下为数据的标准化:由 PROC CLUCTER 过程,聚类过程如下分类结果如下:由聚类结果可知:35 个大中型城市聚为了三类。第一类:青岛,贵阳,合肥,兰州,武汉,重庆,上海,广州,石家庄,济南,郑州,沈阳,银川,昆明,西宁。第二类:杭州,宁波,大连,长春,天津,深圳,南京,海口,南宁,太原,厦门,南昌,乌鲁木齐,长沙,哈尔滨。第三类:北京,西安,呼和浩特,成都,福州.再根据此表中的数据对全国各分区做主成分分析:主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分) ,其中

15、每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。主成分分析法代数模型 :假设用 p个变量来描述研究对象,分别用X1,X2Xp 来表示,这 p个变量构成的 p维随机向量为 X=(X1,X2Xp)t。设随机向量 X的均值为 ,协方差矩阵为 。对 X进行线性变化,考虑原始变量的线性组合: Z1=11X1+12X2+1pXp2=21X1+22X2+2pXp Zp=p1X1+p2X2+ppXp 主成分是不相关的线性组合 Z1,Z2Zp,并且 Z1是 X1,X2Xp 的线性组合中方差最大者,Z2 是与 Z1不相关的线性组合中方差最大

16、者,Zp 是与Z1,Z2 Zp-1 都不相关的线性组合中方差最大者。主成分分析程序:data a;set work.Shuju;run;proc princomp n=13 cov out=out1;var F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14;run;proc sort data=out1 out=a1;by prin1;run;proc print data=a1(keep=diqu F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14 prin1 prin2 );run;结果:由 proc princom

17、p的指数之间的相关系数矩阵如图所示(Covariance Matrix)相关矩阵特征值及累计贡献率(Eigenvalues of the Covariance Matrix)由特征值结果可以看出,前 3个特征值累计贡献率已达到 80.75%。说明前 3个主成分基本包括了全部指标,且前 3个主成分的每个主成分方差贡献率分别为33.25%,28.28%,19.22%。则取前 3个特征值,并计算相应的特征矢量。特征矢量的结果如图:由结果可得主成份的表达式,如下:Y1=0.453271F2+0.499109F3+0.372986F4+0.278237F5+0.239497F6+0.149365F7+0

18、.062302F8-0.069859F9-0.106172F10-0.138179F11-0.252940F12-0.253917F13-0.285747F14Y2=0.069654F2+0.185746F3+0.148064F4+0.190808F5+0.206218F6+0.232561F7+0.295616F8+0.384813F9+0.421266F10+0.429614F11+0.319339F12+0.248109F13+0.211348F14Y3=0.363645F2+0.313615F3+0.085343F4-0.126516F5-0.361828F6-0.489873F7-0

19、.403442F8-0.188231F9+0.285873F10+0.223939F11+0.189069F12+0.061973F13+0.074619F14在第一主成分的表达式中,F9-F14 项上有负的作用。F2,F3 的指数相比较大,故起到相对重要的作用。在第二主成分的表达式中,各项系数均为正数,但是,F10,F11 的作用相对较大。按照第一主成分进行排序,结果如下:在第三主成分的表达式中,F5-F9 项上有负的作用。按照第一主成分进行排序,排序图如下:然后了解一下每个月份的数据的描述性统计分析:描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析,数据的集

20、中趋势分析,数据的离散程度分析,数据的分布,以及一些基本的统计图形。数据的数字特征程序:proc univariate data=work.Shuju plot normal;var F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14;id diqu;run;结果:注释:(N:输入的观测值个数, Mean:变量的平均数,sum observations: 变量所有值的和,Variance: 变量的方差,Std Deviation :变量的标准差,Skewness: 偏斜度,Kurtosis: 峭度,USS:每一变量原始数据的平方和,CSS:每一变量的离均差平方和,CV:变异系数,Std Error Mean: 每一变量的标准误差。 )以下图片显示的是 F2(2014 年 10月)的 35个大中型城市的基本数据特征:以下是所画的数据图形,包括茎叶图,盒形图,以及正态概率图。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报