收藏 分享(赏)

空气污染研究的主成分分析.doc

上传人:精品资料 文档编号:9371415 上传时间:2019-08-04 格式:DOC 页数:9 大小:203.61KB
下载 相关 举报
空气污染研究的主成分分析.doc_第1页
第1页 / 共9页
空气污染研究的主成分分析.doc_第2页
第2页 / 共9页
空气污染研究的主成分分析.doc_第3页
第3页 / 共9页
空气污染研究的主成分分析.doc_第4页
第4页 / 共9页
空气污染研究的主成分分析.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、空气污染研究的主成分分析一、提出问题本文对于给定的某城市 42 天中午 12 点的空气污染数据进行主成分分析,主要解决以下几个问题:(1) 分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异;(2) 对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。二、分析问题主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用

2、主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。针对问题一,首先将数据标准化,计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取成分个数,列出主成分方程并解释主成分意义。针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到 80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。三、模型假设1、影响污染程度的变量只有本文中所提到的变量;2、随机选取的 42 天;3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同

3、时不考虑人为因素、检测仪器精确度不同等影响。四、符号说明符号 符号含义i样本方差x原始变量Y样本主成分),(ovjXCi样本协方差样本相关矩阵i样本平均值协方差矩阵P特征向量矩阵矩阵的特征值e矩阵的特征向量 信息提取率五、问题求解5.1 协方差矩阵主成分分析设 是 T321),(pxx的协方差矩阵, 的特征值与正交化特征向量分别为0321及 pee,321 ,且 x的第 i个主成分为 (1),321(,pYpiii 根据已有数据计算得样本 T321),(pxx的均值向量 T,xx 为)095.48.076.95.476.8.735(x根据协方差矩阵计算公式 T1)(nxiii(2)代入数据可求

4、得随机变量 7654321,(xx相应的样本协方差矩阵为 479.0504.17142.0617.0 328932 163558 84 42.015.7402.107.0 67938-96312 12-638-5利用特征值计算公式 代入数据可求得 的特征值 与对应单位正交化特征向Ei量 分别为),2(ie,6941.301 T)024.15.0246015.32.( e,2.82 T)37.97.5.8.9.16.07(e,46.13 T)085141.032.16.07.3.( e,59.24 T)92.67.8.7.98.5.860( e,73.15 T)04.5.204.536.071.

5、( e,49.06 T)627.9036.8(e,23.7T)9.05.031.47.11( e利用第 个主成分的贡献率i(3)pki1及前 个主成分的累计贡献率k(4)ptks1代入数据计算得 的各标准化主成分的贡献率及累计贡献率(如表 1 所示) ,可以看出,前三个标准化样本的累计贡献率已经达到 98.6968%,故只需提取前三个主成分即可:表 1 的各标准化主成分的贡献率及累计贡献率ii贡献率(%) 累计贡献率(%)1 304.2579 87.2948 87.29482 28.2761 8.1127 95.40753 11.4645 3.2893 98.69684 2.5243 0.72

6、42 99.42105 1.2795 0.3671 99.78816 0.5287 0.1517 99.93987 0.2096 0.0601 100.0000记主成分向量为 ),.,(7654321YY由 ,XPT,ee知 的前三个主成分分别为x 76543211 024.1.026015.93.0. xxxY 2 3978967 76543213 851.7.4. xxxx 因此,用前三个主成分代替原来 7 个变量,信息损失量较小。进一步由 与 的相关系数iYiX(5)ijxYei,计算出前三个主成分与各原始变量的相关系数如下表:表 2 前三个主成分与各原始变量的相关系数 1Y2Y3Y1x

7、0.1087 0.2576 -0.06722-0.9994 0.0357 -0.00143-0.1937 -0.4181 0.46754x0.0740 0.0626 0.41115-0.1274 -0.2369 0.95856-0.3521 -0.9299 -0.10417x-0.0613 -0.1824 0.4168由表可看出, 与 相关度较高,而由相关矩阵的主成分权重系数(即特征向量1Y2中的各个值)知,太阳辐射对空气污染的影响最大; 与 相关度较高,由相关矩阵1e 2Y6x的主成分权重系数(即特征向量 中的各个值)知, 对空气污染的影响较大; 与2e3O3Y相关度较高,同理,由相关矩阵的

8、主成分权重系数(即特征向量 中的各个值)知,5x 3e对空气污染的影响较大。考虑前三个主成分的贡献率依次降低,得出结论:影响空气2NO污染的最重要因素为太阳辐射。由于 的方差较大,第一主成分主要由变量 控制,所2x 2x以所得结论与实际不符。5.2 样本相关矩阵主成分分析利用标准化公式对原数据 进行标准化处理得到一组新的数据)( 721,xX:),(*72*1X即令(6)7,21,ixii其中 为 的平均值, 为 的方差。iixii此时,由于 的协方差矩阵即为T7654321 ),( XX的相关矩阵 其中T7654321),(xx pij(主 成分相 关 系数原变 量(7)jijiijXYX)

9、,(Cov),(E为 的协方差。),(ovjXCi j,i代入数据计算得到样本相关矩阵为 0.1548.023516.05216.0 167434 489723-7 16.05.020.1819.0 5164-3479-利用特征值计算公式 代入数据可求得 的特征值 与单位正交化特征向量Ei分别为)7,32,(ie1. T)321.07.4901.38.0546.208.4(e38.2 T).59.6.573.6( e109.3 T)18.0.213.0974.1.024.(e786.4 T)79.4.5.8.5.7.190( e5. T)1.083.06.14.93.0248.6(e417.0

10、6 T)54.2.7.85.6.35.( e168.07 T)312.047.289.0436.5729.01.2539( e利用第 个主成分的贡献率i(8)pi及前 个主成分的累计贡献率k(9)ks1其中 。计算 的各标准化主成分的贡献率及累计贡献率(如表 3 所示) 。7p表 3 的各标准化主成分的贡献率及累计贡献率ii贡献率(%) 累计贡献率(%)1 2.3368 33.3824 33.38242 1.3860 19.7997 53.18213 1.2041 17.2012 70.38334 0.7271 10.3870 80.77035 0.6535 9.3356 90.10596 0

11、.5367 7.6670 97.77297 0.1559 2.2271 100.00可以看出,当特征值大于 1 时,提取前三个标准化样本的累计贡献率为 70.3833%。记主成分向量为 ),(7654321YY由,XPYT ),(7654321ee则 的前三个主成分分别为X 7 654321132.0 32.091.8.0546.08.4 XXY . 79.6.5.9.53.68X 7 6543213.0 18.023.7.01.4.由 与 的相关系数iYiX(10)ijXYei,计算出前三个主成分与各原始变量的相关系数如表:表 4 前三个主成分与各原始变量的相关系数 1Y2Y3Y1X-0.3

12、681 0.3255 0.693620.3145 -0.6202 0.250230.8307 -0.0046 -0.14674X0.5927 0.5123 -0.437350.7452 0.2305 0.235060.4922 -0.6714 0.17457X0.4884 0.3553 0.6072由表 4 可看出, 与 、 相关度较高, 近似是 7 个变量的等权重之和,反1Y35X1Y映了空气质量的综合指标, 值越大,空气质量越差。 与 相关度较低,由相关矩23X阵的主成分权重系数(即特征向量 中的各个值)知,CO 对空气污染指标 y2 的影响较2e小; 与 、 相关度较高,同理,由相关矩阵

13、的主成分权重系数(即特征向量3Y1X7中的各个值)知,风速和 HC 对空气污染的影响较大。考虑前三个主成分的贡献率之和e达到 70.3833%,因此综合考虑来 , 和 来评判影响空气污染的重要指标。1Y235.3 差异性从协方差矩阵出发,对所有变量进行主成分分析,何从相关矩阵出发做主成分分析,两个方向得出的结果显示,原变量在第一主成分和第二主成分中的相对重要性,由于标准化而有很大变化。从协方差矩阵的角度进行主成分分析,所得第一主成分中,权重系数分别为-0.01 、0.9922、0.941、-0.0047、0.0243、0.1124、0.0023 ,二重相对矩阵的角度进行主成分分析,所得的第一主

14、成分分析,权重系数为-主成分相关系数原 变 量0.238、0.2056、0.5511、0.3776、0.4980、0.3246、0.3194。两者差距很大,并且在第二主成分中的两个系数相差更远。因此,由协方差矩阵和相关矩阵所得的主成分一般是不同的。为了满足样本主成分累计贡献率达到 80%以上,从相关矩阵出发做的主成分分析应保留 4 个主成分,而从协方差矩阵来看,只保留 1 个主成分即可。由此可知,用协方差矩阵进行主成分分析更能简化运算。本文中,由于设计的各变量的变化范围差异不大,因此应从先关矩阵出发求主成分比较合理。近似是 7 个变量的等权重之和,反映了空气质量的综合指标, 值越大,空气质1Y

15、 1Y量越差。综合考虑来 , 和 来评判影响空气污染的重要指标。1Y23六、模型评价模型优点:(1) 用主成分分析方法能够较好地揭示污染物于污染程度之间的关系;(2) 该模型所用工具较易操作;(3) 主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。所确定的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;得到的综合指标之间相互独立,不仅简化了评价系统,还减少了信息的交叉和冗余。(4) 方法计算简便,数学物理意义明确,有较强的可操作性和一定的推广应用。模型缺点:(1) 尚未考虑到其他变量的影响,存在预测误差;(2) 该模型未给出图像,难以反映各变量对空气污染程度的影响;(3) 从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它在定性向定量转化过程中发挥了一定的效能。模型推广:利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据做进一步分析,有主成分分析法构造回归模型,把各成分作为新的自变量代替原始自变量 x 作回归分析。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报