1、聚 类 分 析,聚类分析的种类(按目的分),1. 变量聚类2. 样品聚类,聚类分析的种类(按方法分),1. 层次聚类 (Hierarchical Clustering)变量可以是连续型或离散型。2. 快速聚类法 (k-means Clustering)变量须是连续型。,例1 血脂指标.sav,已知60位患者六种血脂指标的测量结果(总胆固醇,甘油三酯,高密度脂蛋白,低密度脂蛋白,载脂蛋白A,载脂蛋白B)。试对六种指标进行聚类分析。,试对60位患者进行聚类分析。,操作步骤(指标聚类),AnalyzeClassifyHierarchical Cluster 所有变量选入“Variable(s)” C
2、luster选中variables Plots中选 Dendrogram (获得树状图) 其余均按默认值 ok,操作步骤(样品聚类),AnalyzeClassifyHierarchical Cluster 所有变量选入“Variable(s)” Cluster选中cases Plots中选 Dendrogram (获得树状图) Save选中single solution , 并输入 5 clusters 其余均按默认值 ok,例2 方398_1.sav,已知17所医院的人力利用和医院任务的资料(X1:日均住院人数;X2:月均X片摄片人数;X3:月均占用病床天数; X4 : 服务范围内人口数;X
3、5:患者人均住院天数;X6:每月使用人力),现需将它们划分为三个等级。试对17所医院进行聚类分析。,操作步骤(快速聚类),AnalyzeClassifyK-means Cluster X1X6选入“Variable(s)” 将 hospital r选入“label cases by ”中 Number of cases 变为 3 Save选中 Cluster membership 其余均按默认值 ok,应用要点(1),距离测量方法不同的测量方法可以得到不同的聚类结果,一般选用普通欧氏距离或该距离的平方(后者为SPSS默认)。,应用要点(2),样本量(1)样品聚类:无关变量的存在可能影响真实分类
4、的发现,或致错分。(2)变量聚类:同质的样本量较大时,可以获得稳定的、专业上容易解释的聚类结果。,应用要点(3),共线性如果变量间存在较强共线性,就会异常地抬高某变量的作用,应当予以剔除或提取主成分。,应用要点(4),变量的标准化如果用于分析的变量间具有相差甚远的方差,则方差大的变量会对聚类结果有主导作用。分析前宜先行标准化,一般选用Z - score。,应用要点(5),专业意义聚类分析可以细分到每类只有一例,但这样做一般没有实际意义。统计学并未给出成定论的分类结论,需结合专业知识作分析。实际上,不同的聚类分析方法可能得出相差很大的结果。,练习(1):体操比赛.sav,中、法、美等七个国家的裁判和未经严格训练的体育爱好者在体操比赛中对300位选手进行评分。试根据评分情况将裁判分为适当的若干类。,练习(2):EG11-1北京市中职教育.sav,采用快速聚类的方法,将基于教育相关指标的北京郊县分为4类。,