收藏 分享(赏)

本科毕业设计(论文):各地区主要空气质量指标的统计分析.doc

上传人:文档投稿赚钱 文档编号:1449681 上传时间:2018-07-18 格式:DOC 页数:31 大小:493.06KB
下载 相关 举报
本科毕业设计(论文):各地区主要空气质量指标的统计分析.doc_第1页
第1页 / 共31页
本科毕业设计(论文):各地区主要空气质量指标的统计分析.doc_第2页
第2页 / 共31页
本科毕业设计(论文):各地区主要空气质量指标的统计分析.doc_第3页
第3页 / 共31页
本科毕业设计(论文):各地区主要空气质量指标的统计分析.doc_第4页
第4页 / 共31页
本科毕业设计(论文):各地区主要空气质量指标的统计分析.doc_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、学士学位论文(设计)Bachelors Thesis论文题目 各地区主要空气质量指标的统计分析作者姓名学号所在院系学科专业名称导师及职称论文答辩时间编号 2012030442 研究类型 应用研究 分类号 C81学士学位论文(设计)诚信承诺书中文题目:各地区主要空气指标的统计分析外文题目:Statistical analysis of regional air quality indicators学生姓名 学 号 2008111030442院系专业 数学与统计学院 统计学 班 级 0804学 生 承 诺我承诺在毕业论文(设计)活动中遵守学校有关规定,恪守学术规范,本人毕业论文(设计)内容除特别注

2、明和引用外,均为本人观点,不存在剽窃、抄袭他人学术成果,伪造、篡改实验数据的情况。如有违规行为,我愿承担一切责任,接受学校的处理。学生(签名):2012 年 4 月 27 日 指导教师承诺我承诺在指导学生毕业论文(设计)活动中遵守学校有关规定,恪守学术规范,经过本人核查,该生毕业论文(设计)内容除特别注明和引用外,均为该生本人观点,不存在剽窃、抄袭他人学术成果,伪造、篡改实验数据的现象。指导教师(签名):2012 年 4 月 27 日各地区主要空气质量指标的统计分析摘 要:根据我国 31 个地区二氧化硫、二氧化氮以及可吸入颗粒物等空气质量指标,运用 SAS 软件进行聚类分析、主成分分析和因子分

3、析来研究各地空气污染物的一些内在联系,最终可得出三个结论。(1)31 个城市可以分为六类,第一类:北京、武汉、天津、石家庄、重庆、哈尔滨、郑州、南京、西安、杭州、西宁、济南、合肥、成都;第二类:呼和浩特、贵阳、沈阳、南昌、银川、长春、长沙、上海、广州、昆明;第三类:太原;第四类:福州、南宁、海口、拉萨;第五类:兰州;第六类:乌鲁木齐。(2)在空气质量指标的五个因子中,可以提取两个因子。 因子 1 为空气污染程度因子,因子 2 为二氧化氮因子(3)第一主成分的贡献率为 70.32%,第二个主成分的贡献率为 14.35%。前两个主成分和的累计贡献率达到了 84.67%80.00%,所以保留这两个主

4、成分, 它代表了各地区空气污染情况 83.35的信息。关键字:空气质量指标;SAS软件;聚类分析;主成分分析;因子分析中图分类号:C81Statistical analysis of regional air quality indicators Abstract: According to sulfur dioxide, nitrogen dioxide and respirable particulate matter and other air quality indicators of our countrys 31 regions ,using SAS software for cl

5、uster analysis, principal component analysis and factor analysis to study some of the air pollutants around the inner link,eventually to three conclusions: (1) 31 cities can be divided into six, the first category: Beijing, Wuhan, Shijiazhuang, Tianjin, Chongqing, Harbin, Zhengzhou, Nanjing, Xian, H

6、angzhou, Xining, Jinan, Hefei, Chengdu; The second category:Hohhot, Guiyang, Shenyang, Nanchang, Yinchuan, Changchun, Changsha, Shanghai, Guangzhou, Kunming; The third category: Taiyuan; The fourth category: Fuzhou, Nanning, Haikou, Lhasa;The fifth category: Lanzhou; The sixth category: Urumqi. (2)

7、The air quality index of the five factors, two factors can be extracted. The factor 1 is factor of level of air pollution. The factor 2 is nitrogen dioxide factor. The first principal components contribution rate is 70.32%, the second principal components contribution rate is 14.35%. The sum of firs

8、t two principal components is 84.67%80.00%. So keep these two principal components, it represents 83.35% of various regions air pollution information.Keywords: Air quality indicators; SAS software; cluster analysis; principal component analysis; factor analysis目录1. 前言 .12.统计理论知识 .12.1 聚类分析 .12.2 主成分

9、分析 .32.3 因子分析 .53. 实证分析 .63.1 聚类分析 .63.2 主成分分析 .83.3 因子分析 .114.小结 .154.1 论文结论 .154.2.现实意义及改进 .165.参考文献 .186.致谢 .197、附录 .20附录一 .20附录二 .21附录三 .23附录四 .240各地区主要空气质量指标的统计分析1. 前言空气污染是一个比较复杂的现象,污染物在空气中占的比例的多少,决定了空气质量的高低,也决定着空气对人类健康的影响。我们可以通过对空气污染物的研究来控制其在空气中的比重,寻找空气污染物来源,进而采取合理有效的措施,改善空气质量,确保人类健康。由于某些城市的企业

10、一味追求工业发达,却对污染物的影响不够了解,没有采取完善的预防措施,造成现在的环境污染严重,对生态系统和人类的正常的生存和发展产生了恶劣的影响。我们通过对空气质量指标中二氧化硫、二氧化氮以及可吸入颗粒物等污染物和空气质量污染指数进行分析。只有了解空气污染物,我们才能够找到能够合理处理环境与经济发展关系的可持续发展道路。2.统计理论知识 2.1 聚类分析依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。 各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。 各指标之间具有一定的相关关系。 聚类分析(cluster analysis)是一组将研究

11、对象分为相对同质的群组 (clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy) 直接聚类法是根据距离矩阵的结构一次并类得到结果。2.1.1 系统聚类方法的基本思想 1首先定义样品间的距离和类与类之间的距离。初始将 n 样品看成 n 类(每个样品包含一类) 。这时类间的距离与样品间的距离是等价的,然后将距离最近的两类合并成新类。并计算新类与其他类间的距离,再按最小距离准则分类。这样每次缩小一类,直到所有的样品都并成一类为止。这个并类过程可以用谱系聚类图形象的表达出来。系统聚类的基本步骤:数据变

12、换:便于比较和计算;(1)计算 个样品两两间的距离,得样品间的距离矩阵 。 2n (0)D初始 样品自成一类,类的个数 ,第 类 ,此时类间的(3) knt()()1,2)ttGxn距离就是样品间的距离,即 ,然后对步骤 执行并类过程的步骤 、(0)(1)D2,in (4)。(5)对步骤 得到的距离矩阵 ,合并类间最短距离的两类为一新类,此时累的总4i(1)i个数减少 1 类,即 。kni计算新类与其他类间的距离,得新的距离矩阵 ,若合并后的类个数 仍大于(5) ()iDk1,重复步骤 、 ,直到类的个数为 1 是转到 。(4)56画谱系聚类图。(6)决定分类的个数及各类的成员。72.1.2

13、系统聚类法的种类聚类法原则决定于样品间的距离及类间距离的定义。类间距离的不同定义就产生了不同的系统聚类方法。当 于 类合并成 类时, 类与其他类 类之间的距离pGqpGrkG有如下的多种定义方法;最短距离法: ; min(,)rkpkqD最长距离法: ;ax,rkpkq重心法: ;2222prkkkpqrrDnn类平均法: ;222(,)pqrkkkrD可变类平均法: ;2222(1)pqrkkkpqrrn中间距离法: ;222rkpkqpqD2离差平方和法: ;2222kpkqkr kpqrrnnnDD2.1.3 聚类分析基本步骤把各个分类对象单独视为一类; (1)根据距离最小的原则,依次选

14、出一对分类对象,并成新类 ;2如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对(3)象正好属于已归的两类,则把这两类并为一类;每一次归并,都划去该对象所在的列与列序相同的行; 那么,经过 次就可以把全部分类对象归为一类,这样就可以根据归并的先(4)1m后顺序做出聚类谱系图;输出结果;(5)进行结果分析和解释。 (程序见附表二)62.2 主成分分析2.2.1 主成分分析的基本思想主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。在实际问题中,研究多指标的问题是经常遇到的问题。多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间存在着一定的相关性

15、,因而使得所观测到的数据在一定程度上反映的信息有所重叠。而且当变量较多时,在高维空间中研究样本的分布规律比较复杂,势必增加分析问题的复杂性。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,并且彼此之间互不相关。利用这种降维的思想,产生了主分量分析、因子分析、典型相关分析、偏最小二乘回归等统计方法。主分量分析又称主成分分析或主轴分析。2.2.2 PRINCOMP 过程的功能该过程可完成以下几方面计算:(1)完成主分量分析:计算相关阵或协差阵的特征值和特征向量,当特征值按从大到小次序排列时,由相应特征向量可得出第一主分量、第二主分量等等。用少数

16、几个主分量代替原始变量,并计算主分量得分。由得分数据作主分量得分的散布图,进一步地还可用于主分量回归和聚类分析。(2)主分量的个数用户可以自己确定;主分量的名字用户可自己规定;主分量得分3是否标准化也可以由用户根据实际需要来确定。(3)输入数据集可以是原始数据集,也可以是相关阵,协差阵或离差阵(SSCP) 。输入原始数据时,用户还可以规定从协差阵出发或从相关阵出发进行分析。由协差阵出发进行分析时表示方差大的变量在主分量分析中起的作用大。(4)PRINCOMP 过程可输出许多计算结果。包括简单统计量(均值和标准差) ;相关阵或协差阵;从大到小排序的特征值和相应特征向量,每个主分量解释的方差比例,

17、累计比例等。该过程还生成二个输出数据集:一个包含原始数据集;另一个是包含有关统计量的类型为 TYPE=CORR(或 COV)的输出集,它也可作为其他过程的输入 SAS集。(5)PRINVOMP 过程还可用来揭示变量间的共线关系。若存在某个特征值约等于零,即表示这组变量间近似存在共线性。(6)该过程也可以进行基于偏相关阵地主分量分析。2.2.3 语句说明1.PROC PRINCOMP 语句在 PRINCOMP 过程语句中常用的选项为:(1)DATA=SAS-data-set-给出被分析的 SAS 数据集的名字。这个数据集可以是原始 SAS 数据集或者 TYPE=CORR,COV 或 SSCP 的

18、数据集。(2)OUT=SAS-data-set-命名一个存放原始数据以及主分量得分数据的输出数据集。(3)OUTSTAT=SAS-data-set-命名一个存放均值、标准差、观测个数、相关阵或协差阵、特征值和特征向量的输出 SAS 数据集。如果规定选项 COV,则数据集的类型为 TYPE=COV,而且包含协差阵;否则,数据集的类型为 TYPE=CORR,而且包含相关阵。(1)COVARIANCE|COV-要求从协差阵出发计算主分量。如果没有规定此选项,则从相关阵出发进行分析。(2)N=n-规定被计算的主分量个数。缺省值为变量个数。4(3)NOPRINT-不输出计算结果。(4)PREFIX=na

19、me(名字)- 对主分量的名字规定前缀。缺省时的名字为PRIN1,PRIN2,PRINp。如果规定 PREFIX=Z,则主分量名字为 Z1,Z2,Z3 等等。 (5) STANDARD|STD-要求在 OUT=的数据集里把主分量得分标准化为单位方差。如果没有规定此选项,主分量得分的方差等于相应的特征值。(6)VARDEF=divisor(除数)-规定用于计算方差和协方差的除数。Divisor 的可能值为 N,DF,WEIGHT 或 WGT 和 WDF。2.VAR 语句VAR 语句列出用于进行主分量分析的变量。如果省略 VAR 语句,则 SAS 系统使用 DATA=规定的数据集中所有数值变量进行

20、主分量分析。 (程序见表三)2.3 因子分析因子分析是通过研究众多变量之间的依赖关系,探究观测数据中的基本结构,利用少数几个因子来表示基本结构。这些因子能反映原来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关系。在因子载荷矩阵中,各行元素的平方和即共同度,表示每个指标数各个因素所解释的变异数的总和。而各列元素的平方和则表示每个因子对方差的解释能力,即方差贡献率。方差贡献率大,则表示因子所含的信息多。因子分析的基本概念:1.一种简化数据的技术。 2.探索性因子分析和证实性因子分析 3.因子分析就是要找到具有本质意义的少量因子。 4.用一定的结构/模型,去表达或解释大量可观测的变量。 5.用相对少量的几个因子解释原来许多相互关联的变量之间的关系。 6.描述的变量是可观测的显在变量。 7.相关性较高,联系比较紧密的变量放在一类。 8.每一类变量隐含一个因子潜在变量。 9.不同类的变量之间相关性较弱。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报