收藏 分享(赏)

降维技术(四)-因子分析之一.ppt

上传人:weiwoduzun 文档编号:4215666 上传时间:2018-12-15 格式:PPT 页数:49 大小:555.01KB
下载 相关 举报
降维技术(四)-因子分析之一.ppt_第1页
第1页 / 共49页
降维技术(四)-因子分析之一.ppt_第2页
第2页 / 共49页
降维技术(四)-因子分析之一.ppt_第3页
第3页 / 共49页
降维技术(四)-因子分析之一.ppt_第4页
第4页 / 共49页
降维技术(四)-因子分析之一.ppt_第5页
第5页 / 共49页
点击查看更多>>
资源描述

1、第六章 降维技术,因子分析,6.2 因子分析 什么是因子分析,因子分析是主成分分析的进一步发展,是一种很好的降维技术,它是用较少个数的公共因子的线性函数和特定因子之和来表达原来观测的每个变量,以便达到合理地解释存在于原始变量间的相关性和简化变量的个数的目的,因子分析还可根据因子得分对变量或者样品进行分类。在实际问题中,由样本观测数据阵出发分析出变量的公共因子与特殊因子从而研究变量间的相互关系称为R型因子分析。如果由样本观测数据出发,建立样品的公共因子与特殊因子,从而研究样品之间的相互关系称为Q型因子分析。下面重点介绍R型因子分析。,因子分析的方法最初是应用在教育心理学上,英国心理学家C.Spe

2、arman于1904年发表了对学生考试成绩分析的著名文章,可以认为是因子分析方法的开始。,6.2 因子分析 什么是因子分析,由表6.6中的数值可以看出,前三种中每两科之间相关系数较大,后三科中每两科之间相关系数也较大,但前三科与后三科之间的相关系数都很小,这表明,用六个科目来考察学生的知识水平,实际可分为二大科目来考察学生知识水平,即前三科可列为语文能力的考察,后三科可列为数学能力的考察。称语文能力和数学能力为反映学生成绩的两个不可观测的公共因子,并且可以认为这两个公共因子互不相关。,6.2 因子分析 什么是因子分析,2018/12/15,中国人民大学六西格玛质量管理研究中心,5,(一)Cha

3、rles Spearman提出因子分析时用到的例子,为了对因子分析的基本理论有一个完整的认识,我们先给出Charles Spearman 1904年用到的例子。在该例中Spearman研究了33名学生在古典语(C)、法语(F)、英语(E)、数学(M)、判别(D)和音乐(Mu)六门考试成绩之间的相关性并得到如下相关阵:,6.2 因子分析 什么是因子分析,2018/12/15,中国人民大学六西格玛质量管理研究中心,6,目录 上页 下页 返回 结束,6.2 因子分析 什么是因子分析,2018/12/15,目录 上页 下页 返回 结束,除此之外,还可以得到如下有关 方差的关系式:,6.2 因子分析 什

4、么是因子分析,2018/12/15,8,6.2 因子分析 什么是因子分析,2018/12/15,中国人民大学六西格玛质量管理研究中心,9,6.2 因子分析 什么是因子分析,一般来说,因子分析就是试图用最少个数的不可观测的互不 相关的公共因子的线性组合,再加上特殊因子来描述原来一组可观测的相互有关的每个变量,其目的是尽可能合理解释存在于原 始变量之间的相关性,并且简化变量的维数和结构。,6.2 因子分析 什么是因子分析,因子分析的主要应用有两方面:一是寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样品)综合为少数几个因子(不可观测的,相互独立的随机变量),以再现因子与原变量之间的内

5、在联系;二是用于分类,对p个变量或n个样品进行分类.,6.2 因子分析 什么是因子分析,因子分析根据研究对象可以分为R型和Q型因子分析.R型因子分析研究变量(指标)之间的相关关系,通过对变量的相关阵或协差阵内部结构的研究,找出控制所有变量的几个公共因子(或称主因子、潜因子),用以对变量或样品进行分类.Q型因子分析研究样品之间的相关关系,通过 对样品的相似矩阵内部结构的研究找出控制所有样品的几个主要因素(或称主因子).,6.2 因子分析 什么是因子分析,因子分析与主成分分析有区别:主成分分析一般不用数学模型来描述,它只是通常的变量变换,而因子分析需要构造因子模型(正交或斜交);主成分分析中主成分

6、的个数和变量个数p相同,它是将一组具有相关性的变量变换为一组独立的综合变量(注意应用主成分分析解决实际问题时,一般只选取m(mp)个主成分),而因子分析的目的是要用尽可能少的公因子,以便构造一个结构简单的因子模型;,6.2 因子分析 什么是因子分析,因子分析与主成分分析有区别:主成分分析是将主成分表示为原变量的线性组合,而因子分析是将原始变量表示为公因子和特殊因子的线性组合.另一方面这两种分析方法之间在某些情况下也有一定联系.这些我们将从下面的介绍中看到.,6.2 因子分析 什么是因子分析,6.2因子分析 因子分析数学模型,设有 个样品,每个样品提取了m个特征变量(指标),如果特征变量用 (

7、)表示,则对不同的 就有不同的均值与方差。为了对变量进行比较,并消除由于变量量纲的差异所造成的影响,可将样本观测数据先进行标准化处理,使标准化后的变量的均值为0,方差为1。这样一来,原来的m个变量( ) 经过标准化后变为新的变量,用( )表示,称为标准变量。如果原来的m个变量有不可观测的n个公共因子设为 , ,经过标准化后可记作 ,且变量 可以表达为,假定随机向量X满足以下的模型:X1=a11y1+a12y2+a1mym+1,X2=a21y1+a22y2+a2mym+2 ,Xp=ap1y1+ap2y2+apmym+p, 称为因子分析数学模 用矩阵表示为,特殊因子,公共因子,为对角阵,即 的各分

8、量之间也是相互独立的, 则(6.25)式可展开为(6.27),(6.26),6.2因子分析 因子分析数学模型,(6.27)式用矩阵形式表示,即为(6.28) 上式(6.27),(6.28)称为因子分析数学模 型,其中 为 矩阵且(6.29),因子载荷矩阵,因子载荷,6.2因子分析 因子分析数学模型,显然,上述因子分析数学模型可以简化为(6.30)其中并已假定 。,6.2因子分析 因子分析数学模型,实际问题中,因子分析总是根据特征变量的 观测数据阵来求因子载荷矩阵A,并且确定公 共因子 的个数。,6.2因子分析 因子分析数学模型,对于因子分析数学模型(6.30)式,一旦因子载荷矩阵A及公共因子确

9、定,则因子分析数学模型最终确定。为了确定因子载荷矩阵A,我们需要对因子载荷矩阵A的统计意义给予解释。下面就因子载荷矩阵A的统计意义从三个方面进行说明。1因子载荷矩阵的统计意义由6.2.1知 , 所以 与 的协方差,6.2因子分析 因子分析载荷矩阵的统计意义,(6.31) 即 是 的协方差。又因为 与 的相关系 数为(6.32) 由此知 又可看作 与 的相关系数,它表示 依赖 的程度,即反映了第 个变量 对第 个 公共因子 的相对重要性,也就是表示 与公 共因子 的密切程度。,6.2因子分析 因子分析载荷矩阵的统计意义,而 的系数 , , ,正好表示 了 与 的线性组合程度。2变量共同度的统计意

10、义 如果将因子载荷矩阵A中第行元素的平方和 记为 ,即(6.33) 则 称为变量 的共同度。为了说明共同度的 统计意义,我们先来计算 的方差。,6.2因子分析 因子分析载荷矩阵的统计意义,(6.34)又 (6.35) 对于(6.34)式,它表明 的方差 由两部 分组成,第一部分是 ,它反映了全部公共因子 对变量 的影响,也就是反映了全部公共因子对,6.2因子分析 因子分析载荷矩阵的统计意义,的方差所做出的贡献,所以也称为公共因子对变量 的方差贡献。当 接近于1时,则表明变量 的全部原始信息几乎被所选取的公共因子所包含。第二部分是 ,它是特殊因子 所产生的方差,仅和 的变化有关,称为剩余方差。由

11、(6.35)式知, 大,则 小, 大就表示变量 对公共因子 的共同依赖程度大,这正是称为变量 的共同度的理由。当=1 , ,这时变量由公共因子的线性,6.2因子分析 因子分析载荷矩阵的统计意义,组合表示,当 接近于0时,则表明公共因子对变量 的影响不大,这时 主要由 特殊因子 来表述。因此,剩余方差 也称为 特殊因子 的方差贡献。3公共因子的方差贡献的统计意义因子载荷矩阵A的第j 列( 的 各元素的平方和记为 ,即(6.36),6.2因子分析 因子分析载荷矩阵的统计意义,则 就表示第 个公共因子 对于X 的每一个分量 所提供的方差总和,称为公共因子 对 的方差贡献。反映了公共因子对X 的影响和

12、作用,是衡量公共因子 相对重要性的指标。 越大,表明公共因子 对X 的贡献就大,或者说 对X 的影响和作用就越大。,6.2因子分析 因子分析载荷矩阵的统计意义,由于 的每一个分量 都已标准化, 所以 的协方差矩阵等于相关阵 ,即 (6.37)又由 ,有,6.2因子分析 因子载荷矩阵的求法,所以有令 则有 这里 称为约相关矩阵。,(6.38),6.2因子分析 因子载荷矩阵的求法,与 的区别仅在于主对角线上的元素不相同: 即,6.2因子分析 因子载荷矩阵的求法,(6.39),显然 的主对角线上的元素依次为 ;而 的主对角线上的元素依次为 ,且 为非负定矩阵。,6.2因子分析 因子载荷矩阵的求法,为

13、确定因子载荷矩阵,现在可依次确定因子载 荷矩阵A 的各列,使因子载荷矩阵中各列对X 的贡献有顺序 。 因为,6.2因子分析 因子载荷矩阵的求法,所以 (6.41)下面先来确定因子分析数学模型中的公共因子 ,显然我们希望 对 的影响最大(贡献最大),即是要求 在满足,6.2因子分析 因子载荷矩阵的求法,条件下取得最大,这是一个条件极值问题,应用Lagrange乘数法,有(6.42)式中 称为拉格朗日乘数因子,Q 为一增广函数,因子载荷为未知量。,6.2因子分析 因子载荷矩阵的求法,现在分别求Q 关于 及 的偏导数,并令其为0,于是有(6.43)(6.44) (6.43)与(6.44)式可写成统一

14、形式(6.45),6.2因子分析 因子载荷矩阵的求法,其中用 乘(6.45)式两端,并对 求和,则有(6.46)由(6.43)式有 所以,6.2因子分析 因子载荷矩阵的求法,因此(6.46)可以写成(6.47)再用 乘(6.47)式两端,并对 求和,则有(6.48)又由(6.41)式,有(6.49),6.2因子分析 因子载荷矩阵的求法,将(6.49)式写成矩阵形式,则有或用矩阵表示,即(6.50),6.2因子分析 因子载荷矩阵的求法,(6.50)式说明, 是约相关矩阵的最大特征根,而 是 的最大特征根 所对应的特征向量,而该向量 是因子载荷矩阵A 的第一列元素组成的向量。由此,我们就给出了确定

15、因子载荷矩阵A第一列元素的方法,即,只需求出约相关矩阵 的最大特征根 所对应的特征向量 (注意,属于 的特征向量不唯一)。为了使该特征向量能成为因子载荷阵第1列元素所组成的向量 ,则 必须满足(6.50)式同时又要满足 (6.51),6.2因子分析 因子载荷矩阵的求法,综上所述,求第一公共因子 的第一列向量 的方法如下:求出 的最大特征根 及其相对应的特征向量后,由(6.51)式,对 进行规格化处理,即有,6.2因子分析 因子载荷矩阵的求法,其中 (6.52)令 ,则所以 为选出的第一公因子 的因子载荷阵中第一列。如果各变量的公因子方 差未被分解完,则继续求与 不相关的第二个公 因子 所对应的

16、因子载荷阵中第二列 。,6.2因子分析 因子载荷矩阵的求法,自然 的方差贡献 要在条件(6.53)或 (6.54)下为最大。其中, 称为从 中去掉 的影响之后的剩余约相关阵, 为 的第 行,第 列元素, 为 的第 行,第 列元素。重复前述作法,可求得 的最大特征根并记为 及相应的特征向量,并根据条件,(6.55),6.2因子分析 因子载荷矩阵的求法,进行规格化处理,于是可求出公共因子 及因子载荷阵A 的第二列向量其中(6.56)(6.57)依次类推,就解决了求因子载荷阵A 的问题。,6.2因子分析 因子载荷矩阵的求法,但是,实际上,求 以后的特征根 及对应的特征向量,并不需要作变换即由剩余约相

17、关阵来求得,而是由 直接求出。下面我们来解决这个问题。设对 求得的全部非零特征根为 ,对应的标准化特征向量为 ,于是 ; 为因子载荷阵的第 列向量,此时 且有,6.2因子分析 因子载荷矩阵的求法,又 故 (6.58) 下面就(6.58)式 分别加以讨论:当 时,有此时(6.58)式为(6.59)即,6.2因子分析 因子载荷矩阵的求法,由此知 的最大特征根 所对应的特征向量 也是 的一个特征向量,但其对应的特征根为0。 当 1时,由(6.47)式有 因此,由(6.58)式有(6.60)(6.60)式说明,当 时, 与 的特征根与特征向量相同,因此 的第二大特征根就是 的最大特征根,所以只要求出

18、的第二,6.2因子分析 因子载荷矩阵的求法,大特征根 及对应的 的特征向量 ,则它们就是 的最大特征根及对应的特征向量,且因子载荷阵A 的第二列元素所成向量为其中,6.2因子分析 因子载荷矩阵的求法,因此,第二公共因子 就确定了。类似地,其它各公因子 都可由求约相关阵 的特征根而确定。又因约相关阵 的秩等于公共因子的个数n,因此只要对 进行特征分析,即可求出全部公共因子,且 由此因子载荷阵A 完全确定。,6.2因子分析 因子载荷矩阵的求法,剩下需要解决的问题是公共因子个数该如何确定呢?实际应用中首先计算出 的全部非零特征根,并按大小顺序排列成 (设n为 的秩),如果前 个特征根之和 占全部特征根之和 的85以上,则公共因子取个即可。这种方法与主成分分析采用的方法类似。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报