1、主成分分析,公共卫生学院信息数据处理教学实验室,一、主成分分析,实际工作中原始数据的变量之间常有一定的相关性。人们希望找到较少的几个互不相关的综合指标,尽可能多的反映原来的信息。 主成分分析就是由原变量X1Xp中线性组合出m个(mp)互不相关、且尽量少丢失信息的新变量(主成分),并能给各主成分所包含的信息以恰当的专业解释。,主成分分析和因子分析也可以用下列各种统计分析的中间结果矩阵进行分析:,CORR 相关系数矩阵 SSCP 平方和、积和矩阵 CSSCP 离均差平方和、积和矩阵 COV 方差、协方差矩阵 UCOV 为平方和、积和矩阵/n UCORR 为 矩阵 FACTOR 因子矩阵 需要在数据
2、步中指定: _TYPE_= CORR;,主成分分析过程PROC PRINCOMP;VAR X1-X4; RUN; PRINCOMP过程后选项: COV 用协方差矩阵计算,默认用相关系数矩阵 PREFIX= 指定主成分变量名前缀,默认用prin1.print2 STD 输出变量标准化后的主成分得分 OUT= 把原始数据和主成分得分输出到指定数据集,原始数据为CORR或COV矩阵时OUT无效 OUTSTAT= 把运算结果输出到指定数据集 NOPRINT 禁止屏幕输出任何结果,保留主成分个数的原则:特征根(eigenvalue)1累计贡献率(cumulative proportion of eige
3、nvalue )70%碎石图(Scree plot)能有恰当的专业解释,练习1:主成分分析(变量单位不同) 20例肝病患者4项肝功能指标:X1:转氨酶(SGPT); X2:肝大指数(F); X3:硫酸锌浊度(ZnT); X4:甲胎球蛋白(AFP)试作主成分分析 程序: unit4princomp1.sas 数据: unit4princomp1.xls,练习2:主成分分析(变量单位相同) 我国27个少数民族体型资料 X1:头长; X2: 头宽; X3: 额最小宽; X4: 面宽; X5: 下额角间宽; X6: 容貌面高; X7: 形态面高; X8: 鼻高; X9: 鼻宽; X10: 口裂宽; X11:身长; X12: 肩宽; X13: 胸围; X14:骨盆宽; X15:全头高; (测量单位: mm) 程序:unit4princomp2.sas 数据: unit4princomp2.xls,练习3:主成分回归分析某研究所调查了13名儿童的资料X1:性别(男1,女2)X2:年龄(月)X3:身高(厘米)X4:体重(公斤)X5:胸围(厘米)Y: 心象面积(平方厘米)试分析性别、年龄、身高、体重和胸围与心象面积的关系。 程序: unit4princomp3.sas 数据: unit4princomp3.xls,