1、1,主 成 分 分 析 与 因 子 分 析,Principal Components Analysis& Factor Analysis,第二军医大学卫生统计学教研室 张罗漫,2,讲课内容: 第一节 主成分分析 第二节 因子分析,3,第一节 主成分分析 Principal Components Analysis,4,一、基本思想 数据的降维、数据的解释将原来众多具有一定相关性的指标,组合成一组新的相互无关的综合指标。从中选取几个较少的综合指标尽可能多的反映原来众多指标的信息。 这种既减少了指标的数目又抓住了主要矛盾的做法有利于问题的分析和处理。,5,6,如何利用这些指标对每一儿童的生长发育作出
2、正确评价?仅用单一指标:结论片面;没有充分利用原有数据信息。利用所有指标:各指标评价的结论可能不一致,使综合评价困难;工作量大。,7,找出几个综合指标(长度、围度、特体),这些综合指标是原始指标的线性组合,既保留了原始指标的信息,且互不相关。各综合指标提供的“信息”量大小用其方差来衡量。衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,一项指标在个体间的变异越大,提供的信息量越多。,8,二、数学模型及几何意义,9,Z = A X,10,第一主成分,在所有Zi中最大,11,第二主成分, 理论上主成分个数最多为m个(指标个数) 实际工作中确定的主成分个数总是小于m个,12,X1
3、,X2,1,1,2,-2,-2,-1,-1,2,0,相关 变异,13,X1,X2,Z1,Z2,1,1,2,-2,-2,-2,-2,1,1,-1,-1,-1,-1,2,2,2,0,14,Z1,Z2,-2,-2,1,1,-1,-1,2,2,0,相关 变异,15,三、主成分的求法及性质,16,(一)主成分的求法1. 对各原始指标值进行标准化,为了方便,仍用Xij表示Xij。,17,标准化后的数据矩阵,X =,18,2. 求出X1 , X2 , , Xm 的相关矩阵R,R=Cov(X) =,19,Pearson 相关系数,标准化后的协方差,协方差,20,21,(r11 i) ai1+ r12 ai2+
4、 + r1m aim =0 r21 ai1+ (r22 i) ai2+ + r2m aim=0 rm1 ai1+ rm2 ai2+ + (rmm i) aim =0,i为矩阵R的第i个特征值, 共有m个非负特征值,由大到小的顺序排列为: 1 2 m0 i=Var(Zi),22,4. 由以上方程组,求出相应于特征值 i 的特征向量(eigenvector) (ai1 , ai2 , , aim),23,(二)主成分的性质1.各主成分互不相关,24,2.主成分的贡献率与累积贡献率(原始指标值标准化),(指标个数),25,3.主成分个数的选取 (1)前k个主成分的累积贡献率70%。 (2)主成分Zi
5、的特征值i 1。,4.因子载荷 (第i主成分Zi与第j原始指标Xi间相关系数),26,5.样品的主成分得分,27,四、实例,28,29,30,31,1.主成分个数的选取3很接近于1;3 与2的贡献率相差不大,为25%左右,若舍去3不合理。取前三个主成分。,32,2.列出主成分表达式,Z1为急性炎症成分(X1转氨酶、X2肝大指数) Z2为慢性炎症成分(X3硫酸锌浊度 ) Z3为癌变成分(X4甲胎球蛋白 ),33,3.求出因子载荷阵,34,4.主成分得分,35,标准化指标主成分还原为原始指标主成分,36,将该肝病患者的四项肝功能指标代入原始指标主成分表达式:Z1=2.50865Z2=1.06626
6、Z3=1.22943该肝病患者可能为急性炎症。,37,五、主成分分析的应用1.对原始指标进行综合以互不相关的较少个综合指标反应众多原始指标提供的信息。主成分回归(解决多元共线问题)。,2.进行综合评价,38,3.进行探索性分析利用因子载荷阵,找出影响各综合指标的主要原始指标。 4.对样品进行分类利用主成分得分对样品进行分类:Z1为急性炎症成分Z2为慢性炎症成分Z3为癌变成分,39,第二节 因子分析 Factor Analysis,40,一、因子分析基本思想从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个不可 观测的潜在变量。是多元分析中处理降维的 一种统计方法。,如:脑部
7、疾病患者的意识清醒状态可由语言能力、辩识能力、记忆能力、理解能力与 思维逻辑能力等可观测的指标反映。,41,二、因子分析数学模型,common factor,42,43,Xi:观测指标(标准化数据) Fi:公因子 ei:特殊因子 aij:因子载荷(计算关键项),44,X = AF + e,45,46,47,三、因子模型的性质矩阵A的统计意义 1.公共度(共性方差 ),48,因子的共性方差,49,2.因子贡献与因子贡献率矩阵A第j列元素 反映了第j个公 因子Fj对所有原始指标的影响; 数据标准化后全部原始指标的总方差为指 标个数m。,Fj对原始指标的方差贡献率,50,各因子的贡献,51,3.因子
8、载荷及因子载荷阵,A,52,四、因子载荷阵的求解及计算步骤1. 收集原始数据并整理为下表,53,2.对各指标进行标准化 3.求指标间的相关系数矩阵RX 4.求指标间的约相关系数矩阵R*(1)R*的非对角线元素与相关矩阵RX的非对角线元素相等(2)R*的对角线元素为共性方差,54,5. 求出约关系数矩阵R*所有大于零的特征值及相应的特征向量 6. 写出因子载荷阵A,得出原始指标X的公因子表达式,55,要求: 1. 保留公因子个数q小于指标个数m,原则:j1前k个公因子累积贡献率70% 2. 各共性方差 接近于1。 3. 各原始指标在同一公因子Fj上的因子载荷之间的差别应尽可能大。,56,五、实例
9、,57,1.主成分解,58,59,60,主成分解: 除因子1可初步认定为综合因子外,其余3 个因子的专业意义不明显。 2.主因子解: 除因子1可初步认定为综合因子外,其余3 个因子的专业意义不明显。,61,六、因子旋转 当各公因子的专业意义难以解释时,可以通过因子旋转来解决。 如求得的因子载荷阵A不甚理想,可右乘一个正交阵T,使AT有更好的实际意义,使各原始指标在同一公因子上 之间差别尽可能增大。称因子正交旋转。 正交旋转可保持各指标的共性方差不变;各公因子互不相关。 常用方差最大旋转法等。,62,63,64,七、几点注意1.因子分析的解不唯一 (1)同一问题可以有不同的因子分析解:主成分解、
10、主因子解、极大似然解 (2)进行因子旋转以获得更为满意的解。 2.因子得分不能直接进行计算,但可以估计。,65,3.主成分分析与因子分析间的关系 (1)两者的分析重点不一致Z=AX 主成分为原始变量线性组合,重点在综合原始变量信息。X=AF+e 原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变量的不可观测的潜在因素。,重要,66,(2)两者之间有密切的关系 因子分析完全能够替代主成分分析,并且功能更为强大。 主成分分析是一种思想,是一种得到目的的中间手段,是其它多元统计分析方法的基础,如因子分析常用主成分法求解。 主成分分析单独应用有其独到之处,如应用于综合评价与主成分回归时非常实用、科学。,67,讲课内容: 第一节 主成分分析 第二节 因子分析,68,Thank you!,