1、SPSS-聚类分析,以经济效益数据为例,用聚类分析法对各省市作分类(见spssex-4/全国各省市经济效益数据) 以城镇居民消费资料为例,用聚类分析法对各省市作分类(见spssex-4/城镇居民消费支出资料),SPSS中的聚类分析,Spss中的聚类功能常用的有两种: 快速聚类(迭代过程):K-Means Cluster 系统聚类:Hierarchical Cluster,一、Hierarchical Cluster聚类,系统聚类由两种方法:分解法和凝聚法。 系统聚类的功能:即可进行样品的聚类,也可进行变量的聚类。 系统聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。,系统聚类的中要进行
2、以下的选择: 数据的标准化 测度方法的选择:距离方法的选择或相似性、关联程度的选择。 聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。 输出图形的选择:树形图或冰柱图。,系统聚类,见(一)聚类方法,见( 二)各种距离和相似系数,Method,聚类方法,标准化变换,亲疏关系指标,(一)聚类方法1.Between-groups linkage 类间平均法两类距离为两类元素两两之间平均平方距离 2.Within-groups linkage 类内平均法 两类距离为合并后类中可能元素两两之间平均平方距离 3.Nearest neighbor 最短距离法 4. Furthest n
3、eighbor 最长距离法 5.Centroid clustering 重心法 (欧式距离) 6.Median clustering 中间距离法 (欧式距离) 7.Ward Method 离差平方法 (欧式距离),1.squared euclidean distance 平方欧式距离2. euclidean distance 欧式距离3.cosine 夹角余弦(R型) 4.pearson correlation 皮尔逊相关系数(R) 5.chebychev 切比雪夫距离,(二)各种距离和相似系数(亲疏关系指标),6.block 绝对值距离7.minkowski 明考斯基8.customized
4、,Statistics,聚类进度表,相似矩阵,样品或变量的分类情况,凝聚状态表的第一列表示聚类分析的第几步;第二列、第三列表示本步聚类中哪两个样本或小类聚成一类;第四列是相应的样本距离或小类距离;第五列、第六列表明本步聚类中,参与聚类的是样本还是小类。0表示样本,数字n(非0)表示由第n步聚类产生的小类参与本步聚类;第七列表示本步聚类的结果将在下面聚类的第几步中用到。,Plot,树状结构图,冰柱图,冰柱的方向,Vertical Icicle,6 7,冰柱图因其样子非常象冬天房顶垂下的冰柱得名,它以图形的方式显示层次聚类分析结果,一般从冰柱图的最后一行开始观察,第一列表示类数。两样品之间的“”表
5、示将其两边的样品(类)联结起来聚成新类。,应用举例:,4-1,首先对表4-1中的原始数据进行标准化变换处理,经过运算使数据标准化得到表4-2,使它的每列数据的平均值为0,方差为1,这样表4-1中5列具有不同量纲、不同数量级的数据,不同地区数据求出欧氏距离。,就能放在一起比较;其次用表4-2中经过标准化处理后的30个,表4-1,表 4-2,K-Means Cluster聚类,K-Means Cluster原理,首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个; 其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。 第三,按照距离这些类中心的距离最小的原则把所有观
6、测量(样品)分派到各类重心所在的类中去。 第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心; 第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。,K-Means Cluster聚类过程,由AnalyzeClassifyK-Means Cluster 将个变量放入Variable ; 输入最后聚类的个数;,例 饮料数据(spssex/drink.sav ),16种饮料的热量、咖啡因、钠及价格四种变量,快速聚类,选项,读写凝聚点,人为固定分类数,ANOVA表, 初始凝聚点等,快速聚类法的聚类数由用户指定,分类是唯一的。 1.分
7、类数:如希望聚成K类 2.聚类方法:method: iterate and clussify(聚类分析的 clussify only(聚类分析过程类中心3.聚类中心:centers 4.迭代次数:iterate 5.保存分类结果:save,每一步都重新计算新的类中心点),点始终为初始类中心点,仅作一次迭代),Initial Cluster Center:快速聚类的初始类中心点(本例由系统自行指定四个类的初始类中心点),指定聚成四类,Iteration History:快速聚类的迭代步骤在迭代过程中,完成第一次迭代后形成的四个新类中心点距初始类中心点的欧氏距离分别为5.065、12.532、12.275、25.901。第四次迭代后形成的四个新类中心点几乎与上次确定的中心点没有差别。经过四次迭代,快速聚类完成。,快速聚类的最终类中心点,Number of Cases in each Cluster:快速聚 类的最终结果,快速聚类的类成员情况,各样本距其所在的类中心的欧氏距离,各类中的成员数,