收藏 分享(赏)

因子分析、主成分分析.ppt

上传人:HR专家 文档编号:6008601 上传时间:2019-03-24 格式:PPT 页数:90 大小:7.63MB
下载 相关 举报
因子分析、主成分分析.ppt_第1页
第1页 / 共90页
因子分析、主成分分析.ppt_第2页
第2页 / 共90页
因子分析、主成分分析.ppt_第3页
第3页 / 共90页
因子分析、主成分分析.ppt_第4页
第4页 / 共90页
因子分析、主成分分析.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

1、准备工作:,请: 1、把360杀毒软件和安全卫士关掉 2、在Lenovo-e1、e2机子的共享文件夹中的SPSS目录拷取数据到F盘中 3、打开“SPSS15注册详解”Word文件按步骤注册,因子分析 与 主成分分析,中南大学地球科学与信息物理学院,问题的提出,假定你现在掌握了一个区域内评价自然资源的多个指标。这些指标从不同的侧面反映所评价自然资源特征如果让你分析该区域的自然资源情况,能不能找到综合变量来对该区域内的发展水平排序呢?,方法的选择,常用方法: 主成分分析 找出主要影响因素(主成分) 因子分析 找出公共因子,该公共因子可以概括其所包含的变量,方法的选择,主成分分析 找出主要影响因素(

2、主成分) 减少需要考虑的变量 综合排序 优先考虑第一主成分 各变量对整个样本的影响程度,方法的选择,因子分析 找出公共因子 综合排序 综合考虑各公共因子 各变量对整个样本的影响程度,方法的选择,主成分分析与因子分析的区别 对原始数据的要求 因子分析要求各变量互不相关 主成分分析要考虑各变量的物理意义(即是否有些变量可以不考虑) 计算方法 因子分析:要对系数矩阵做旋转 主成分分析:不需要对系数矩阵旋转,方法的选择,主成分分析与因子分析的优缺点比较 对原始变量的保留 因子分析:不对原始变量进行取舍,只是重新组合 主成分分析:舍弃小部分原始变量 对实际工作量的影响 因子分析:对工作量减少的影响有限(

3、因综合考虑各变量) 主成分分析:大幅减少工作量(因只考虑主成分,实际工作中可以舍弃非主成分) 综合排序的准确性(理论上) 因子分析大于主成分分析,方法的选择,分析建立在大样本的基础之上 有人认为样本容量要大于50个 有人认为样本容量要是变量个数的10倍以上 有人认为如果数据均匀,则不需要大样本 有人认为,方法的选择,本实验适合做因子分析,不适合做主成分分析 本实验首先详细介绍因子分析 然后用本实验的数据,介绍SPSS中主成分分析的方法,方法的选择,因子分析试图: 在力保数据信息丢失最少原则下 研究指标体系的少数几个线性组合 几个线性组合所构成的综合指标能尽可能多地保留原来指标的信息 这些综合指

4、标就称公共因子。,方法的选择,选择几个公共因子? 因子分析的目的是简化变量,公共因子的个数应该小于原始变量个数 保留几个公共因子?应该权衡公共因子个数和保留的信息的程度,一般要保留原始信息的85%以上。,方法的选择,SPSS适用于统计初学者或非统计学专业人员 数据转换功能较强 Spss(*.sav) Excel(*.xls) Text(*.txt)dBase(*.dbf) ,实验步骤,1.数据的准备操作 打开 保存数据 2.数据描述分析(Descriptive) 3.因子分析 4.输出结果分析,一、数据准备,1)首先在Excel中打开“水样元素成分分析数据”,删除表名“水样元素成分分析数据”,

5、保存数据。2)在 SPSS中打开保存好的Excel数据,一、数据准备,在Excel中删除,在SPSS中自动转为列标题,数据准备,启动SPSS双击SPSS15.0图标 在开始菜单中找到SPSS 15.0 for Windows,点击。,选择文件,选择Open an existing data source 双击More File,选择文件,在文件类型中选择Excel,选择文件,“Worksheet”表示的是Excel表格中的行范围,数据编辑窗口,SPSS中的列名为Excel中第一行,数据编辑窗口,左下角的两个选项卡,Data View和Variable View 默认状态下是Data View

6、切换到Variable View,变量格式设置窗口,在Variable View中可以设置变更的名称、类型等参数,名称,类型,小数显示位数,输出结果中变量的显示名称,输出结果中变量内容的显示名称,Variable View,Name更改变量名称 Type选择变量类型(如numeric 、string) Decimals设定小数显示的位数 Label分析输出结果中变量的显示名称 Values 分析输出结果中变量内容的显示名称,结果输出窗口,Output为结果输出窗口,可以显示我们对文件的操作信息以及对数据的分析结果,数据格式转换,将Excel数据转换成为SPSS数据,保存文件,点击File菜单下

7、的Save As选项,保存文件,保存时类型为SPSS(*.sav),保存结果输出文件,Output结果输出窗口点击File菜单下的Save As选项,保存结果输出文件,保存时类型为SPSS(*.spo),因子分析的步骤:,1.判断是否需要进行因子分析 判断方法:对变量进行线性回归分析 (spss中的Descriptive 命令可以实现) 通常各变量的线性回归系数没有明显差别,为了使各变量的线性回归系数向0或1两极分化,要进行旋转 依据变量的相关性进行判断,采用Bartlett球检验法或KMO检验法,确定是否有进行因子分析的必要 2.如果有因子分析的必要,则进行因子分析,二、数据特征描述操作:,

8、命令Descriptive 该命令可完成多种统计指标: 均值、中位数、众数、和 标准差、方差(标准差的平方) 极大值、极小值、全距 均值的标准误差 偏度、峰度。,Descriptives过程,点击Analyze下的Descriptive Statistics(描述统计)选项,选择该选项下的Descriptives,Descriptives,选中待处理的变量(左侧的AsHg等); 点击 使变量AsHg 移至Variable(s)中; 选中Save standrdized values as variables(保存标准化值作为变量); 点击Options(选项),1,2,Descriptives

9、过程,选择所要的特征值: Mean(均数) Std.deviation (标准差) Minimum (最小值) Maximum (最大值) 升序排列(Ascending means) 点击Continue,Descriptives过程,原始数据标准化 将原始数据转换成标准Z分值并存入数据库 根据原始数据与均值的大小,大于均值的为正值,小于均值的为负值,相等的为零 输出原始数据特征的描述参数,如均值、方差等,数据标准化,标准化过程就是将数据进行处理后,新数据具有均值为0、标准差为1的特征,因子分析法 (数据标准化),对于具有不同级或不同单位的数据进行处理,使资料在更平等的条件下进行分析。 假设

10、为原观测值, 为数据均值,S为标准差,则标准化后的观测值 (标准正态变换)为,Descriptives过程,点击OK,Descriptives过程,标准化处理后的数据,Descriptives过程,三、因子分析,点击Analyze下的Data Reduction(数据降维)选项,选择该选项下的Factor(因子分析)过程,因子分析,1、选中待处理的变量,移至Variables,因子分析,2、点击Descriptives 判断是否有进行因子分析的必要 Coefficients(计算相关系数矩阵 ) Significance levels(显著水平) KMO and Bartletts test

11、of sphericity (对相关系数矩阵进行统计学检验 ),因子分析,判断是否有进行因子分析的必要 Inverse(倒数模式):求出相关矩阵的反矩阵(因子分析用不到) Reproduced(重制的):显示重制相关矩阵(因子分析用不到) Determinant(行列式 ):求出前述相关矩阵的行列式值(因子分析用不到) Anti-image(反映像):求出反映像的共同量及相关矩阵。(因子分析用不到),因子分析,Statistics选项框: 选中Univariate descriptive单变量描述统计量(输出被选中的各变量的均数与标准差 ) Initial solution未旋转之统计量(显示

12、未旋转前之共同性、特征值、变异数百分比及累积百分比,由于因子分析要求进行旋转操作,所以此处不必选择) 点击Continue,因子分析,3、点击Extraction(因子提取),因子分析,选择因子分析方法(因子分析一般使用用Principal components,即公共因子分析法),该方法要求Extract选项中的特征值大于1) 输出未旋转的因子载荷矩阵(可选),因子分析,Method所提供的选项有: Principal Components公共因子分析法 Unweighted least squares未加权最小平方法 Generalized least squares 综合最小平方法 Ma

13、ximum likelihood极大似然估计法 Principal axis factoring主轴因子法 Alppha fatoring 因子法 Image fatoring 多元回归法,因子分析,选中Principal components(注:此对话框中的选项,除Display外,均为Principal components法默认的选项,一般情况下,不需要更改,以相关矩阵为依据提取因子变量,提取特征值大于1的因子作为因子变量,旋转前输出未旋转的因子载荷矩阵,迭代到25次后终止分析,碎石图(显示特征值的贡献率,可选),此处可输入限定之因子个数,以共变量矩阵为依据提取因子变量,因子分析,4、

14、点击Rotation(旋转),因子分析,输出旋转后的因子载荷矩阵,因子分析,选中Varimax(正交旋转 选中Rotated solution (输出选中后的因子载荷矩阵 ) 点击Continue,因子载荷图:绘出因子载荷散布图(可选),全体旋转,四分旋转,直接斜交旋转法,旋转时执行的叠代最多次数,六种因素旋转方法,斜交法,因子分析,因子载荷矩阵旋转使用方差最大正交旋转或斜交旋转,其他旋转方法一般不用于因子分析中 方差最大正交旋转:保持变量之间互不相关,使载荷向0、1两端分化。本实验中,认为As、Pb、Cu等变量之间无必然的联系,所以采用方差最大正交旋转 斜交旋转:在变量之间必定存在某种联系的

15、时候使用,比如,在经济学中,人的消费心理、产品质量、文化差异之间必定会存在联系,所以用斜交旋转,因子分析,5、点击Scores,因子分析,选中Save as variables (把因子得分保存在数据文件中 ) 选中Regression(回归因子得分) 点击Continue,计算因素分数的方法,在分析结果中给出因子得分系数矩阵及其相关矩阵,因子分析,Regression:回归因子得分 Bartlett:极大似然估计 Anderson-Rubin: Bartlett算法的改进算法,计算因素分数的方法,因子分析,6、点击Options,因子分析,选中Exclude cases listwise(去

16、除所有含缺失数据的样本、再进行分析,只要样品数据中有缺失,就删除该样品数据) 选中Sorted by size(载荷系数将按照数值大小排列,并构成矩阵) 不显示绝对值小于设定值的载荷系数,设定值范围01 点击Continue,因子分析,Exclude cases pairwise(当样品数据中缺少2个或2个以上的数据时,才删除该样品数据,选中此项最大限度的利用得来不易的数据) Raplace with mean(当分析计算涉及含有缺失值的变量时,用平均值代替该缺失值),因子分析,7、点击OK,结果分析,SPSS输出的第一个表格列出了标准化后数据的平均值(Mean)、标准差(Std. Devia

17、tion)和分析用到的取值个数(N),Univariate descriptive单变量描述统计量(输出被选中的各变量的均数与标准差 ),结果分析,系统输出的第2个表格是8个原始变量的相关矩阵与单尾显著性检验,结果分析,多个变量之间的相关系数较大,说明这些变量之间存在着较为显著的相关性,且其对应的Sig值(显著性)普遍较小,根据分析,这些数据有进行因子分析的必要。,结果分析,KMO检验法和巴特利特球形检验法(KMO and Bartlett Test of Sphericity)的检验结果,结果分析,Bartlett球形检验统计量的Sig0.01,认为各变量之间存在着显著的相关性,可以进行因子

18、分析.,结果分析,一般,KMO大于0.9时,认为因子分析的结果可靠,0.7以上可以接受,0.5以下可能不能接受,结果分析,SPSS输出的第四个表格“成分矩阵”是初始的未经旋转的因子载荷矩阵,结果分析,已选出了3个主因子,以替代原有的8个变量,结果分析,SPSS输出的第七个表格“旋转成分矩阵”是经过旋转后的因子载荷矩阵。,结果分析,旋转后每个公因子上的载荷分配地更清晰,因子变量代表的变量相对集中,比未旋转时更容易解释各因子的意义。,结果分析,载荷绝对值较大的因子与变量的关系更为密切,也更能代表这个变量,结果分析,第1公因子代表Cd、Zn、As、Pb这几个变量因素 第2公因子代表Cr、P两个变量

19、第3公因子代表Cu、Hg两个变量,结果分析,可以根据实际情况对第1公因子、第2公因子、第3公因子命名 我们将第1公因子命名为镉类,第2公因子命名为铬类,第3公因子命名为铜类,结果分析,SPSS输出的第八个表格,是将Cd、Zn、As、Pb用第1因子代替、Cr、Pb用第2因子代替,Cu、Hg用第3因子代替,显示了因子分析后,提取出的各因子之间的相关性,因子之间相关性越小,结果越可靠 可以看到,本实验的各公共因子之间的相关性比较大,认为本实验的因子分析结果不可靠,结果分析,SPSS输出的第六个表格表示各因子变量的特征值与累积贡献率,结果分析,由于前3个因子累计贡献率达到91.798%,根据累计贡献率

20、大于85%的原则,故选取这三个因子,结果分析,SPSS输出的第五个表格表示所提取的公共因子对该变量的信息综合、解释能力,结果分析,As的为0.974,可以理解为3个公共因子能够综合As的信息的97.4%;Pb的为0.581,可以理解为3个公共因子能够解释As的信息的58.1%。,结果分析,回到Data View窗口的当前数据集,会看到文件中增加了3列FAC1_1(第1因子得分)、 FAC2_1(第2因子得分)和FAC3_1(第3因子得分),得分表示的是每个公共因子所占的权重。比如,本实验中表示的是每类元素的含量所占的权重。,第1公因子代表Cd、Zn、As、Pb,第2公因子代表Cr、P,第3公因

21、子代表Cu、Hg,结果分析,我们可以通过第1因子得分来了解镉类元素的分布情况,通过第2公因子来了解铬类元素的分布情况,通过第3公因子来了解铜类元素的分布情况,第1公因子代表Cd、Zn、As、Pb,第2公因子代表Cr、P,第3公因子代表Cu、Hg,结果分析,样号为Z-W-2-02的样品Cd、Zn、As、Pb含量较高,样号为C-W-06-01的样品Cr、P含量较高,样号为C-W-01-02的样品重金属含量较高,第1公因子代表Cd、Zn、As、Pb,第2公因子代表Cr、P,第3公因子代表Cu、Hg,结果分析,接下来,就是对该区发展水平排序。要用到综合得分:综合得分=因子1贡献率*因子1得分+因子2贡

22、献率*因子2得分+ zF(综合得分) 46.048%* FAC1_1 + 24.085%* FAC2_1 + 21.665%* FAC3_1。,结果分析,综合得分反应了总体情况,Z-W-2-02的综合得分最高,表明其所含的As、Cu、Cr等重金属离子的含量越高,反应出其污染越严重,接下来,介绍主成分分析的操作步骤 再次强调,本实验不适合做主成分分析,主成分分析,主成分分析除了不需要做矩阵的旋转之外,其余操作与因子分析相同,主成分分析,主成分分析用到的两个表为: 未经旋转的因子载荷矩阵(即输出结果中的component matrix表) 未旋转之前的贡献率(即输出结果中的Total Varica

23、nce Explained 表的Extraction Sums of Squared Loadings部分),主成分分析,component matrix表中显示 第一主成分包含Cd、As、Zn、Hg、Pb五个变量 第二主成分包含P、Cr两个变量 第三主成分包含Cu一个变量,主成分分析,Total Varicance Explained 表的Extraction Sums of Squared Loadings部分显示了各主成分对样本的影响 第一主成分的影响为54.259% 第二主成分的影响为23.720% 第三主成分的影响为13.819%,实验报告要求,1、包含的内容:实验时间、地点、内容、过程、结果、思考与分析 2、思考: (1)结合本实验的因子分析结果,对该区域内的水样质量排序 (2)主成分分析、因子分析均可以在尽可能保留原始信息的情况下,减少变量的数量,进而得到综合变量。试分析本实验采用因子分析而不用主成分分析的原因 (3)主成分分析的排序方法?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报