收藏 分享(赏)

多元统计作业.doc

上传人:tkhy51908 文档编号:5550006 上传时间:2019-03-07 格式:DOC 页数:13 大小:956KB
下载 相关 举报
多元统计作业.doc_第1页
第1页 / 共13页
多元统计作业.doc_第2页
第2页 / 共13页
多元统计作业.doc_第3页
第3页 / 共13页
多元统计作业.doc_第4页
第4页 / 共13页
多元统计作业.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、西南大学多元统计分析课程论文学 院 数学与统计学院 年级专业 2009 级数学与应用数学 论文写作 唐维彬 学 号 222009314012030 资料收集 李虹霖 学 号 222009314012023 软件操作 刘鹏懿 学 号 222009314012027 数据分析 冉俊峰 学 号 222009314012029 日 期 2012 年 10 月 30 日 基于主成分分析和因子分析评估大气污染摘要:近年来大气污染日趋严重,引起了人们的广泛关注。本文采用主成分分析法和因子分析法,为了评估某大型化工厂的污染情况,在厂区及邻近地区挑选有代表性的 8 个大气取样点,每日 4 次同时抽取大气样品,测

2、定其中包含的 6 种气体的浓度,前后共 4 天,每个样品每种气体实测 16 次。最后通过数据的分析与整理,运用 SPSS 软件,进行主成分分析和因子分析,对该大型化工厂的污染情况做出评估,关键字:主成分分析 因子分析 SPSS17.0 软件 大气污染正文主成分分析法(一) 主成分分析原理主成分分析是设法将原来众多具有一定相关性( 比如 P 个指标 ) , 重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来 P 个指标作线性组合, 作为新的综合指标。最经典的做法就是用 ( 选取的第一个线性组合, 即第一个综合1F指标) 的方差来表达, 即 Var( )越大, 表示

3、包含的信息越多。因此。在所有的线性组1合中选取的 应该是方差最大的, 故称 为第一主成分。如果第一主成分不足以代表原1F来 P 个指标的信息 , 再考虑选取 即选第二个线性组合, 为了有效地反映原来信息, 已2 1F有的信息就不需要再出现在 中, 用数学语言表达就是要求 Cov( , )=0, 则称 为第1F22二主成分, 依此类推可以构造出第三、第四, , 第 P 个主成分。(二) 主成分分析数学模型 2111pPFaZXaZX22 221PmpmPaZaZ其中 , , , (i=1, ,m)为 X 的协方差阵 的特征值多对应的特征向1ia2ipi量, , , , 是原始变量经过标准化处理的

4、值, 因为在实际应用中, 往往存在ZXX指标的量纲不同, 所以在计算之前须先消除量纲的影响,而将原始数据标准化, 本文所采用的数据就存在量纲影响注: 本文指的数据标准化是指 Z 标准化 。, , 为相关系数矩阵, , 是相应的特征值12()()ijpmmAiiRii和单位特征向量, 。3p(三) 主成分分析主要步骤如下:首先。结合数据,判断是否需要进行主成分分析;其次,进行分析,结合主成分的累计贡献率和特征值来确定提取的主成分或因子的数目;然后,进行主成分分析,将提取的主成分存为新的变量,以便继续分析。主成分分子也是通过菜单栏中的 Analyze Data Reduction Factor 命

5、令来实现的,基本操作与因子分析相同。具体操作如下:1 利用 SPSS 进行数据处理(1)打开数据文件后,在数据编辑窗口一次选择 Analyze Data Reduction Factor Analysis, 弹出 Factor Analysis 对话框 Factor Analysis 对话框。 (SPSS 在调用 Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但 SPSS 并不直接给出标准化后的数据 , 如需要得到标准化数据, 则需调用 Descriptive 过程进行计算。 )(2)在左边

6、的原变量列表框中选择将进行因子分析的变量作为因子分析变量进入 variables列表框,具体符号说明如下:图 1 变量选择图氯 代表 硫化氢 代表 SO2 代表1X2X3XZ 碳 代表 环氧氯丙烷 代表 环已烷 代表4 5 6(3)单击 Extraction 按钮,即可打开 Factor Analysis:Extraction 对话框,在 Eigenvalues over 文本框中输入 0.6 作为因子提取的阀值,即提取特征值大于 0.6 的因子,并且选择Display 选项组的两个复选框。图 2 因子提取(4)单击 OK 按钮,执行因子分析得到如下所示的特征值和方差贡献表以及因子负荷矩阵。下

7、表为各因子对应的特征值,% of Variance 列为各因子的方差贡献率; Cumulative %列为累计方差贡献率。从表中可以看出,前 4 个变量已经可以解释 89.264%的方差。表 1 特征值与方差贡献表下表为旋转前的因子负荷矩阵,与因子分析得到的结果是一致的。表 2 旋转前的因子负荷矩阵2 利用因子分析的结果进行主成分分析(1)将旋转前的因子负荷矩阵中的数据输入到 SPSS 数据编辑窗口,将 4 个变量分别命名为 A1 A2 A3 和 A4。图 3 新变量 A1 A2 A3 A4(2)然后,依次计算特征向量矩阵。在主菜单栏中选择 TransformCompute Variable

8、命令,打开如图所示的 Compute Variable 对话框, “T1=A1/SQR(2.183)”,单击 OK 按钮,即可在数据编辑窗口中得到变量名为 T1 的第一特征变量。依次类推,计算 T2 T3 和 T4 ,注SQRT 后的括号内的数值为相应的特征值。图 4 特征向量的计算表 3 特征向量矩阵设变量氯,硫化氢,SO2,碳 4,环氧氯丙烷,环已烷依次为 , , , , ,1X2345X,则根据上面的特征向量表可以得到主成分的表达式如下:6X31124560.56.0280.9.YXX23713.7.4.6.412456941X由于是以相关系数矩阵为出发点进行因子分析,所以主成分分析表达

9、式中的 1X应该是经过标准化变换后的标准变量。所以计算主成份之前首先需要对原始变量进行6X标准化处理,得到变量名为 , , , , , 。标准化处理变量通1ZX234Z56过 Descriptive Statistics 菜单中的 Descriptive 命令实现,该命令不仅可以用于描述分析,还可以用来标准化数据变量。将变量标准化后,再次调用 Compute Variable 命令,分别在对话框中输入等式 3112 4560.56*.0.*0.8.9*0.3y XZX23574174*ZXZ3312 4560.7*.340.16*.90.19*0.yZXZXZX427841就可以计算得到主成分

10、表如下:表 4 8 个取样点的主成分表3 结果分析 31124560.56.0280.9.3YXXX237143.7.4.6.41245691从上面的主成分表达式可以看出,在式中第一主成分上 有较1高的载荷(为 0.56) ,说明第一主成分 是由变量氯( )决定的,1Y1X气体中氯作为主要污染气体是可信的。在第二主成分上 有较高的3载荷(为 0.74) ,说明 主要依赖 ,说明 SO2 作为主要污染气体2Y3X是可信的。依次类推, 主要依赖碳 4, 主要依赖环氧氯丙烷。综3上所诉,在对这 8 个取样点的空气质量进行评估时,可以认为氯,SO2,碳 4,环氧氯丙烷是空气污染的主要气体因子分析(一)

11、 因子分析原理因 子 分 析 法 是 从 研 究 变 量 内 部 相 关 的 依 赖 关 系 出 发 , 把 一 些 具 有 错 综 复 杂 关 系 的 变量 归 结 为 少 数 几 个 综 合 因 子 的 一 种 多 变 量 统 计 分 析 方 法 。 它 的 基 本 思 想 是 将 观 测 变 量 进行 分 类 , 将 相 关 性 较 高 , 即 联 系 比 较 紧 密 的 分 在 同 一 类 中 , 而 不 同 类 变 量 之 间 的 相 关 性则 较 低 , 那 么 每 一 类 变 量 实 际 上 就 代 表 了 一 个 基 本 结 构 , 即 公 共 因 子 。 对 于 所 研 究

12、的 问题 就 是 试 图 用 最 少 个 数 的 不 可 测 的 所 谓 公 共 因 子 的 线 性 函 数 与 特 殊 因 子 之 和 来 描 述 原 来观 测 的 每 一 分 量 。(二) 因子分析数学模型因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors)和唯一因子(unique factors) 。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷(factor loadings)表示。因子分析最常用的理论模式

13、如下:( ,n 为原始变量总数)123iiiiimiZaFaF1,23可以用矩阵的形式表示为 。其中 F 称为因子,由于它们出现在每个原始UAZ变量的线性表达式中(原始变量可以用 表示,这里模型中实际上是以 F 线性表示各个原iX始变量的标准化分数 ) ,因此又称为公共因子。因子可理解为高维空间中互相垂直的 mi个坐标轴,A 称为因子载荷矩阵, 称为因子载荷,是第(1,23,12,3)ijanjm个原始变量在第 个因子上的负荷。如果把变量 看成 m 维因子空间中的一个向量,则ij iZ表示 在坐标轴 上的投影,相当于多元线性回归模型中的标准化回归系数; 称为ijaiZiF 特殊因子,表示了原有

14、变量不能被因子解释的部分,其均值为 0,相当于多元线性回归模型中的残差。其中,(1) 为第 个变量的标准化分数;iZ(2) (i=1,2,m)为共同因素;F(3) 为所有变量共同因素的数目;m(4) 为变量 的唯一因素;ii(5) 为因素负荷量。ja( 三) 因子分析主要步骤如下:为了测量某大型化工厂的污染情况,在厂区及邻近地区挑选有代表性的 8 个大气取样点,每日 4 次同时抽取大气样品,测定其中包含的 6 种气体的浓度,前后共 4 天,每个样品每种气体实测 16 次,计算每个取样点每种气体的平均浓度如下表,并建立数据文件如下:图 5 数据文件建立1. SPSS 具体操作步骤(1)打开数据文

15、件后,在数据编辑窗口一次选择 Analyze Data Reduction Factor Analysis, 弹出 Factor Analysis 对话框(2)在左边的原变量列表框中选择将进行因子分析的变量作为因子分析变量进入 variables列表框,具体符号说明如下:图 6 因子分析变量氯 代表 硫化氢 代表 SO2 代表1X2X3X碳 4 代表 环氧氯丙烷 代表 环已烷 代表4 5 6(3)单击 Descriptives 按钮,打开 Factor Analysis:Descriptives 对话框。选择Coefficients,Significant level 和 Detetermin

16、ant 选项,然后单击 Continue, 返回 Factor Analysis 对话框图 7 因子分析描述(4)单击 Extraction 按钮,即可打开 Factor Analysis:Extraction 对话框,在 Eigenvalues over 文本框中输入 0.6 作为因子提取的阀值,即提取特征值大于 0.6 的因子,并且选择Display 选项组的两个复选框。图 8 因子提取(5)单击 Rotation 按钮,打开 Factor Analysis:Rotation 对话框。在 Method 选项组中选择Varimax 单选按钮,使用正交旋转方法,并选中 Display 选项组的

17、两个复选框。设置结束后,单击 Continue 按钮确认并返回主对话框。图 9 因子旋转(6)单机 OK 按钮确认,并执行因子分析。2 结果分析表 5 共同度表(communalities)CommunalitiesInitial Extraction氯 1.000 .927硫化氢 1.000 .741SO2 1.000 .937碳4 1.000 .961环氧氯丙烷 1.000 .981环已烷 1.000 .808Extraction Method: Principal Component Analysis.在表中给出了采用主成分法提取因子后的各变量共同度,包括各变量对应的初始共同度(Init

18、ial)和提取因子后的再生共同度(Extraction)表 6 相关矩阵表(correlation Matrix )Correlation Matrixa氯 硫化氢 SO2 碳4 环氧氯丙烷 环已烷氯 1.000 -.557 -.443 .249 -.519 .214硫化氢 -.557 1.000 -.067 -.092 .377 -.214SO2 -.443 -.067 1.000 .123 -.082 .517碳4 .249 -.092 .123 1.000 -.145 .203环氧氯丙烷 -.519 .377 -.082 -.145 1.000 -.183Correlation环已烷 .

19、214 -.214 .517 .203 -.183 1.000氯 .076 .136 .276 .094 .306硫化氢 .076 .437 .414 .179 .306SO2 .136 .437 .386 .424 .095碳4 .276 .414 .386 .366 .315环氧氯丙烷 .094 .179 .424 .366 .333Sig. (1-tailed)环已烷 .306 .306 .095 .315 .333a. Determinant = .089表的第一行为相关系数矩阵,第二部分为零假设相关系数为零的单侧显著性检验概率矩阵。从表中可以看出,各概率均大于 0.05,因此可以认为

20、各变量两两之间是不相关的。 表 7 总方差解释表(total)在表中,Component 表示因子序号:Total 为特征值,特征值的大小反映公因子的贡献;% of Variance 为特征值占方差的百分数; Cumulative %为特征值在方差百分数的累加值。Extraction Sums of Squared Loadings 列为根据特征值大于 0.6 的原则提取的 4 个因子的特征值,占方差百分数以及其累加值。这 4 个因子解释的方差占总方差的 89.264%,能够比较全面的反映所有信息。Rotation Sums of Squared Loadings 列为旋转因子矩阵后的 4 个

21、因子的特征值,占方差百分数及其累加值。图 10 碎石图如图所示,横坐标表示因子序号,纵坐标表示各因子所对应的特征值。从碎石图中可以比较清楚看出因子的重要程度。比较陡的直线说明直线断点所对应的因子的特征值差值较大,比较缓的直线则对应较小特征值差值。因子 1,2,3,4 间连线的坡度较陡,说明前4 个因子是主要因子,这和前面结论吻合。下表为所提取因子的因子负荷矩阵,所采取的方法是主成分分析法。表 8 因子负荷矩阵下表为使用 Varimax 法进行因子旋转后得到的因子负荷矩阵。与上表相比,该表跟好地对主因子进行解释。旋转后的因子负荷矩阵两端集中,能更好地解释主因子。从表中可以看出,第一个因子与氯和硫

22、化氢关系紧密,第二个因子与 SO2 和环己烷关系紧密,第三个因子与碳 4 关系紧密,第四个因子与环氧氯丙烷关系紧密。表 9 旋转后的因子负荷矩阵用因子分析方法得到的结论:取前 4 个公共因子可反映原始变量的 89.264%的信息。由方差最大正交旋转后的载荷矩阵可以得出,第一公共因子主要代表 (氯为-0.849)和 (硫化氢为 0.813) ;1X2X第二公共因子主要代表 (SO2 为 0.918)和 (环己烷为 0.793) ;3 6第三公共因子主要代表 (碳 4 为 0.970) ;第四公共因子主要代表4(环氧氯丙烷为 0.937) 。5X参考文献:1.刘德林,刘贤赵,2006主成分分析在河流水质综合评价中的应用J水土保持研究,13(3):1241262.伊元荣,王涛,2008主成分分析法在城市河流水质评价中的应用J干旱区研究,25(4):497-5013.薛 薇 统计分析与SPSS的应用M北京: 中国人民大学出版社,2001:2502594.李波洪泽湖水质的因子分析中国环境科学,2003,23(1):69735.陈东景、马安青等因子分析在水质评价中的应用水文200206:2931

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 职业教育

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报