1、202SPSS两阶聚类法如何自动确定聚类数汪存友12余嘉元2两阶聚类法(TwoStep Cluster,TSC)是SPSSll5及之后版本中新增的一种聚类分析方法。与SPSS中提供的Kmeans法和层次聚类分析法不同,该法采用对数极大似然估计值度量类间距离,并能根据施瓦兹贝叶斯准则(BIC)或Akaike信息准则(AIC)等指标自动确定最佳聚类个数。TSC的这一优点有利于研究者在无任何先验知识时进行探索性聚类分析,因此该法在医学、金融、商业和心理学等领域有着广泛应用。然而,国内外鲜有学者论及TSC究竟如何自动确定聚类个数。41;SPSS的技术文档虽然阐述了TSC确定聚类个数的规则,但其表述与S
2、PSS的实际输出结果却并不一致6】。这导致人们对TSC的自动确定聚类数功能难以理解。为此,本文以SPSS软件(130版本)自带数据car_salessav为例阐述TSC自动确定聚类个数的规则。1操作演示打开SPSSl30,按Analyze-,Classify-TwoStepCluster顺序单击菜单项,进入两阶聚类分析主对话框。选择分类变量type,送入Categroical框中;选择price、engineS、horsepow,wheelbas,width、length,curbwgt,向el-cap和mpg等9个连续变量,送人Continuous Vari-ables框中,在Output对
3、话框中勾选“Information Cfitefion(AIC or BIC)”,同时勾选“Create cluster membershipvariable”复选框,其他选项均为默认设置,点击“OK”运行TSC算法。表1是聚类分析得到的自动聚类表,TSC主要根据表1中的信息确定最佳聚类个数。2对自动聚类表的解读SPSS输出的自动聚类表共有5列。第一列为聚类个数。TSC借鉴了凝聚型层次聚类法的思路,即:系统默认最大聚类个数为15,然后逐个合并距离最小的两类,直到为1个类。对于每种聚类结果,TSC将统计相应的联合对数极大似然估计值(Joint estimation of log maximum
4、likelihood,JELML),它与聚类个数、聚类变量的类型(连续型或者名称型)及个数、各子类上的成员数及其方差估计值等有关。第二列为施瓦茨贝叶斯准则,它反映了聚类结果的复杂性。通常BIC随着聚类个数的增加先减小后增加。当BIC最小时,一般认为聚类结果最理想。但1山西师范大学教育技术与传媒学院(041000)Z南京师范大学,b理系(210097)有时会出现这样的情况,即:随着聚类个数的增加,BIC会不断较小,因此没有最小值。需要说明的是,TSC还提供了与BC相近的统计指标Akaikes Infor-mation Cdtefion(AIC),但SPSS默认使用BIC。表1自动聚类表第三列为B
5、IC变化,它反映了合并前后两种聚类结果的BIC变化情况。这里,用BIC(,)表示聚类个数为,时的BIC值,用dBIC(,)表示聚类个数为,时的BIC变化,则afBic(,)=BIC(JI)一BIC(,)。一般认为,dBIC绝对值越大,聚类结果越理想。第四列为BIC变化率,它同样反映了合并前后两种聚类结果的BIC变化情况。这里用rBIC(,)表示聚类个数为,时的BIC变化率,rBIC(I,)=dBIC(J)dBIC(2),即:它是由,类合并为J一1类时BIC变化与由2类合并为1类时BIC变化的比值。与如IC不同,rBIC取值在(一1,1之间,该值在TSC确定聚类个数时具有重要作用。第五列为最小距
6、离变化率。由于TSC采用对数极大似然估计值度量类间距离,因此,最小距离变化本质上反映了距离最近的两类合并为一类时联合对数极大似然估计值的变化。与rBIC不同,该变化率是联合对数极大似然估计值在本次合并中发生的变化与前一次合并时发生变化的比值,这里用rDM(,)表示聚类个数为_,时的最小距离变化率。一般认为,rDM(,)越大,聚类结果越理想。需要说明的是,rDM可以通过rBIC推导出,这里不作展开。SPSS虽然给出了四个统计指标,但TSC并不单独根据某一个指标来确定聚类个数,而是按照一定的规则、综合考察dBIC、rBIC和rDM后最终确定最佳聚类万方数据个数。3自动确定聚类数规则TSC分两步来确
7、定最佳聚类个数:第一步称为“粗估计”。首先,若曲IC(2)0,则最终聚类数为1,聚类完毕;否则,搜索rBIC小于004的聚类结果,取聚类数最少者(假设为,);若此时所有rBIC均大于004,则取用户自定义的最大聚类数(TSC默认为15);第二步称为“精估计”。从聚类数为,一l开始,搜索,一l一2之间最大的两个rDM值,若最大值与次大值之比大于115,则较大rDM值的聚类数为最终结果;否则,取两者中聚类数较多者为最终结果。需要说明的是,上述两个阈值004和115是TSC研发者经过大量模拟研究得出的经验值;另外,模拟研究还表明,综合利用BIC指标和联合似然值变化率确定聚类个数的策略非常有效7】。在
8、本例中,由于dBIC(2)小于0(一240326),故继续观察rBIC,其中小于004的最小聚类数为4,因此从聚类数3开始,依次观察聚类数为3、2时的rDM,由于此时只有两种情况:聚为3类或者2类,最大rDM值与次大值之比为21901829“120115,因此最佳聚类个数取rDM较大时的结果。由此可知,本例最终聚类数为3。讨 论两阶聚类法是SPSS新增的一种十分重要的聚类分析法,它能自动确定最佳聚类个数,有利于研究者进行探索性聚类分析。不仅如此,两阶聚类法还能够同时对连续型变量和名称型变量进行聚类,而Kmeans法只适合于连续型变量。此外,两阶聚类法还能够对数十万规模的数据进行聚类,这是层次聚
9、类法所不能媲美的。正因为如此,两阶聚类法一经提出就已在许多领域得到推广。本文主要关注两阶聚类法究竟如何自动确定聚类个数,而这是当前该法广泛应用时鲜有的盲区。由于两阶聚类法采用对数极大似然估计值度量类间距离,因此它将BIC或AIC等信息准则引入该算法,并根据BIC或AIC的变化情况衡量模型的复杂性。两阶聚类法通过大量模拟研究确定了几个经验值,据此建立了自动确定最佳聚类个数的规则。已有模拟研究表明,该法能够有效综合这些信息合理确定聚类数。可以预见,两阶聚类法在探索性聚类分析中将有着广泛的应用前途。参考文献1clliU T,Fang D,ClEn J,ct a1A robust and sealab
10、le clustering algorithmfor mixed type砒tributes in large database environmentNew York,NY,USA:ACIVl20012卢纹岱主编SPSS for Windows统计分析第3版北京:电子工业出版社,2006,3924073张文彤主编SPSS统计分析高级教程北京:高等教育出版社,2004,2522534宋忙华,隋虹,汪婷婷,等聚类分析在膳食模式研究中的应用中国卫生统计2009,26(2)5Baeher J,Wenzig K,Vogler MSPSS TwoStep Cluster:A Fhst Evalua-ti
11、onPaper presente(i砒RC33 Sixth International Conference On SocialScience MethodologyAmsterdamThe Netherlands:20046SPSS INCSPSS Statistics 170 Alg嘶tIn伪http:wwwwashingtoneduuw-龇spssdocsSPSS Statistics 170 A培0fi血璐pa,2006,814-8197SPSS矾CThc SPSS TwoStcp cluster component:A scalable componentto segment you
12、r a啷:ton璐moeffectivelyhttp:wwwspssohup-load1 122644952_The SPSS TwoStep Cluster Componentpdf,2001(上接第201页)表2最高指标时各个因素组合Y X1 恐X3 x4 X5 K 玛 xs151038 50 30 120367 20 20 198459 0 12187二次多项式回归方程经方差分析有统计学意义(P=00028),与SAS和SPSS的拟合结果相同。因素问的最佳组合为:X。=50,x2=30,x3=120367,墨=20,墨=20,x6=198459,曷=0,墨=12187。因素问的最佳组合与
13、实际基本一致,符合组方的要求。讨 论类似于中药方剂这样多因素多水平问题,由于其因素个数、水平数较多,因此,均匀试验设计是解决此类问题的很好的试验设计方法,但均匀试验设计实验数据的分析是许多实际工作者面临的一个困难,这就给这种统计方法的应用受到了很大的限制。SAS和SPSS等大型统计软件虽然也能进行回归方程的似合,但不能由回归方程直接给出因素间的最佳组合且试验设计也相当麻烦。本文通过一个实例,给出了用DPS统计软件进行均匀试验设计和分析的过程,特别是提出了在试验指标越小越好的情况下,采取数据变换的方法,利用其回归模型来完成数据的分析并得到最佳组合的方法,解决了在实验指标越小越好的情况下,用DPS
14、数据处理系统中的回归模型进行数据分析的过程。此法操作简单,实用性强,对实际应用均匀试验设计的工作者来说,是一种很实用的方法。参考文献1唐启义,冯明光DIS数据处理系统北京:科学出版社2(X72方开泰,马长兴正交与均匀试验设计北京:科学出版社。2001万方数据SPSS两阶聚类法如何自动确定聚类数作者: 汪存友, 余嘉元作者单位: 汪存友(山西师范大学教育技术与传媒学院,041000;南京师范大学心理系,210097), 余嘉元(南京师范大学心理系,210097)刊名: 中国卫生统计英文刊名: CHINESE JOURNAL OF HEALTH STATISTICS年,卷(期): 2010,27(
15、2)参考文献(7条)1.Chiu T;Fang D;Chen J A robust and scalable clustering algorithm for mixed type attributes in largedatabase environment 20012.卢纹岱 SPSS for Windows 统计分析 20063.张文彤 SPSS统计分析高级教程 20044.宋忙华;隋虹;汪婷婷 聚类分析在膳食模式研究中的应用期刊论文-中国卫生统计 2009(02)5.Bacher J;Wenzig K;Vogler M SPSS TwoStep Cluster:A First Eval
16、uation 20046.SPSS INC SPSS Statistics 17.0 Algorithms 20067.SPSS INC The SPSS TwoStep cluster component:A scalable component to segment your customers moreeffectively 2001本文读者也读过(2条)1. 王耘.刘庆红 目标函数聚类法的适用性分析期刊论文-济南大学学报(自然科学版)2003,17(1)2. 李洪梅.高尚.LI Hong-mei.GAO Shang 聚类准则研究期刊论文-科学技术与工程2009,9(9)引用本文格式:汪存友.余嘉元 SPSS两阶聚类法如何自动确定聚类数期刊论文-中国卫生统计 2010(2)