1、第五章 聚类分析cluster analysis,概述 距离与相似系数 系统聚类法 (hierarchical clustering ) 快速聚类法 (k-means clustering) 变量聚类,聚类分析是多元分析的主要方法之一,主要用来对大量的样品或变量进行分类,是初步数据分析的重要工具之一。,一、概述,聚类的实质 根据样本(变量)间的亲疏关系将样本(变量)分为类,相近的归为一类,差别较大的归为另一类。所获得的分类应有一定的意义。 聚类分析的关键 亲疏关系的判别:相似性与距离(不相似性) 分类数的确定:分多少类合适,聚类分析的应用,不同地区城镇居民收入和消费状况的分类研究。 区域经济及
2、社会发展水平的分析及全国区域经济综合评价 产品市场细分:按照消费者的需求特征分成不同的细分市场 在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类,聚类分析的类型,根据分类的对象 Q型聚类(即样本聚类clustering for individuals) R型聚类(变量聚类clustering for variables) 根据分类的方法: 系统聚类(hierarchical clustering ) 快速聚类(k-means clustering) 模糊聚类,聚类分析数据格式,k,二、距离与相似系数,样本间的亲疏关系通常用距离描述,变量间的亲疏关系通常用相似系数或
3、相关系数描述 不同测量尺度的数据,其距离的计算方法不同,(一)、距离:样本间的亲疏关系,距离的定义: 假设每个样品由p个变量描述,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij dij满足下列条件dij0dii =0dij = djidij dik + dkj,1. 欧式(Euclidian )距离,2. 明氏(Minkowski )距离,当q=1, 为绝对值距离,SPSS称为block 当q=2,即为欧式距离 当q=,有 , 称为切比雪夫(Chebychev)距离,实例计算,品,距离矩阵,绝对值距离,品,Euclidian距离
4、的平方,2,Euclidian距离,明氏距离的缺点,各指标同等对待(权数相同),不能反映各指标变异程度上的差异 距离的大小与各指标的观测单位有关,有时会出现不合理结果 没有考虑指标之间的相关性,当各指标的测量值相差悬殊时,可以先对数据标准化,然后用标准化后的数据计算距离,3. 马氏(Mahalanobis) 距离,明氏距离没有考虑数据中的协方差模式,马氏距离则考虑了协方差,且不受指标测量单位的影响:,已知二维正态总体G的分布为:GN(,),其中,分别求点A=(1,1), 和点B=(1,-1)到均值的欧式距离和马氏距离,欧式等距离线,马氏等距离线,Mahalanobis 距离例,A,B,欧氏距离
5、、标准化变量的欧式距离与马氏距离的比较,4. Lance和Williams 距离,对标准化变量:,5. 配合距离,前几类距离多用于定距和定比尺度数据,对于定类和定序变量:,配合距离例,4种品牌的软饮料在4个方面的特性:是否可乐口味?是否含有咖啡因?是否节食饮料?是否可口可乐公司产?,距离矩阵,1. 夹角余弦(Cosine),(二)相似系数:变量间的亲疏关系,受相似形的启发而来,AB和CD尽管长度不一,但形状相似,A,B,D,C,2. Pearson相关系数,(二)相似系数,SPSS的“分析” “相关”“距离”,Measures对话框,定距尺度,定序尺度,定类尺度,三、系统聚类法,聚合法,分解法
6、,通常分为两步:先做出类别距离谱系图,再根据谱系图的特点确定分类数并分类,Agglomerative系统聚类法基本步骤,步骤1:将n个样品各作为一类,共n类:C1、 C2、 Cn。计算各类之间的距离,构成距离矩阵:dcicj=dij 步骤2:找到距离最近的两类合并为一新类 步骤3:计算新类与当前各类的距离。 重复步骤2、3,直至合并成一类为止,形成谱系图 根据谱系图确定如何分类,单样本类,类与类之间的距离为样品距离,类间距离,类与类间距离,类与类之间的距离,1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中位数法(median metho
7、d) 4.类平均法(average linkage) 5.可变类平均法(flexible-beta method) 6.质心法(centroid method) 7.Ward离差平方和法(Wards minimum-variance method),Agglomerative Methods:各种不同方法的基本步骤相同, 只是类与类之间距离的计算方法不同。,(一)最短距离法,类与类之间的 距离是两类间 两两样品间的 最短距离,6个民族的粗死亡率与期望寿命,哈萨克与藏族的距离最短,最先合并形成新类CL7,新类CL7和其余四类的距离,第二次合并,新类和各类的距离,第三次合并,第四次合并,最后合并成
8、一类,谱系图不显示实际距离,显示0-25的比例距离,树状图,冰柱图,1,2,3,4,5,融合在一起的为一类,(二)最长距离法,类与类之间的 距离是两类间 两两样品间的 最长距离,前例:最长距离法,第1次合并仍取最短欧式距离,新类和各类的距离:取最大值,第2次合并,新类和各类的距离:取最大值,第3次合并,第4次合并,最后合并,例题,5个品牌饮料的热量、咖啡因、钠含量及价格的距离矩阵如下,请用最长距离法作出谱系图。根据谱系图,这五个品牌饮料可以分为几类?,(三)中位数法 (median method),最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离,(四)类平均法 (
9、average linkage between group),SPSS作为默认方法,称为“组间联接”,(五)质心法(centroid method),类与类间的距离用各自重心间的欧式距离表示,(六)Ward最小方差法 (Ward minimum variance method),源于方差分析。 类内离差平方和:类中各样品到类重心(均值)的平方欧式距离之和。 基本思路:两类合并后,离差平方和就会增加。每次选择使离差平方和增加(SSMSSKSSL)最小的两类进行合并,直至所有的样品归为一类。,(七)各种系统聚类方法的统一,以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Will
10、iams于1967年将其统一为:,八种系统聚类法公式的参数,注意:几种聚类方法获得的结果不一定相同,最长距离法,最短距离法,分类数的确定及类别的解释,系统聚类法给我们提供了一个类别距离谱系,最终样本如何分类、分成几类需要我们自己根据研究的目的确定。,3类,2类,2类,系统聚类的SPSS实现,指定参与聚类的变量名和样品号,存放标识变量,选择聚类类型,“统计量”,聚类状态表,相似矩阵,类成员:,不显示类成员表,显示指定范围中每一步类成员,列出指定类数的类成员,“图”对话框,树状结构图,冰柱图,冰柱的方向,显示聚类的每一步,指定显示的聚类范围,不生成冰柱图,“方法”对话框,距离测度方法:不同尺度变量
11、选择不同方法,定距尺度变量,定序尺度变量,01变量,确定标准化的方法:只有前两种尺度的数据才能标准化,测度转换方法,距离值取绝对值,相似度变为不相似度,距离标准化,聚类方法选项,“保存”对话框,生成一个新变量,表明每个个体所属类,指定范围内的结果,生成若干个新变量,系统聚类例:轿车的市场细分,对151名MBA学生的轿车偏好进行调查,要求他们对10种轿车打分,分值1-10(最高分)。 10种轿车型号为:BMW328i, Ford Explorer, Infiniti J30, Jeep Grand Cherikee, Lexus ES300, Chrysler Town&Country, Mer
12、ceds C280, Saab 9000, Porsche Boxster, Volvo V90. 用Wards系统聚类法进行分类 初分析:根据谱系图确定分类数 样本数太多,谱系图不易看,可随机抽样,四、快速聚类法(k-means),也叫动态聚类、逐步聚类、迭代聚类 与系统聚类的主要区别 非层次性递推过程 从初始分类开始不断优化的过程 当样本量很大时,用系统聚类法的计算工作量极大,作出的树状图也十分复杂, 不便于分析,用快速聚类较好。,K-means process,Important: initial centroids or cluster centers and the number o
13、f clusters,注意:快速聚类需事先确定分几类,容易产生局部最优而非全局最优,初始分类很重要,初始类中心的确定,自动选择 必须给出允许分类的最大个数k 凭经验选择 可以先选取部分样本作系统聚类(例如用Wards方法,它与K-means的分类原则很相似),以得到初始分类的类中心(并确定分类数),建立一个初始中心数据文件,快速聚类的SPSS实现,快速聚类主对话框,指定分类数,先定初始类别中心,再按K-means算法叠代分类,仅按初始类别中心点分类,类中心的输入输出,“迭代”对话框:叠代终止准则,限定K-means算法的收敛判据:0N1,含义:当两次叠代计算的最小的类中心的变化距离小于初始类中
14、心距离的N%时,叠代停止。,限定在每个观测量被分配到一类后,马上计算新的类中心。如不选此项,则在完成了所有观测量的一次分配后,再计算各类的类中心,“保存” 对话框,建立一个新变量记录分类结果(默认名:qx1_1)。,建立一个新变量记录各观测量距所属类中心间的欧式距离(默认名:qc1_2),“选项” 对话框,例题输出结果,类别间距离差异均显著,轿车市场细分例-续,在系统聚类的基础上,用K-means进行进一步分析比较,确定最终分类数,并分析结果。 分别按照分3类、4类和5类进行快速聚类,比较结果。 对结果进行分析:计算各类平均得分,五、变量聚类法,分析的目的 了解变量间及变量组合间的亲疏关系 对
15、变量进行分类 根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,用少数几个重要变量进一步作分析计算,如进行回归分析或Q型聚类。,五、变量聚类法,变量聚类例,为了研究30个省、市、自治区1991年城镇居民消费的分布规律,对变量和样本分别进行聚类分析。月平均消费数据如表,其中:x1-人均粮食支出(元/人),x2-人均副食支出,x3-人均烟、酒、茶支出,x4-人均其他副食支出,x5人均衣着支出,x6-人均日用品支出,x7-人均燃料支出,x8-人均非商品支出,变量聚类例,先作样本聚类:类平均法、ward法 再作变量聚类 样本距离测度:夹角余弦或相关系数 类距离:最短距离法、最长距
16、离法、类平均 注意:重心法、median、ward法都要求用欧式距离平方,数据,Ward法,类平均法,样品聚类结果,变量聚类:相关性强的指标归并到一起,相关系数,x1-人均粮食支出 x2-人均副食支出 x3-人均烟酒茶支出, x4-人均其他副食支出 x5人均衣着支出 x6-人均日用品支出, x7-人均燃料支出 x8-人均非商品支出,聚类分析 小结,1聚类分析的概念2两种聚类思想:系统聚类、快速聚类 谱系图 确定分类数3Q-型聚类分析4R-型聚类分析5SPSS的聚类分析过程6聚类分析的结果评述,系统聚类的统计思想,对于位置类别的样本或变量,依据相应的定义把它们分为若干类,分类过程是一个逐步减少类
17、别的过程,在每一个聚类层次,必须满足“类内差异小,类间差异大”原则,直至归为一类。评价聚类效果的指标一般是方差,距离小的样品所组成的类方差较小。,快速聚类的基本思想,动态聚类的方法源于数学中的迭代算法,就是当样品进行聚类时,先给定一个比较粗糙的初始分类,然后设计某种原则进行类别的修改,不断调整和改正这些类别的样品组成,直到比较合理为止。为了迅速找到一种初始分类,我们一般先选择一些凝聚点,让样品依照某种规则向凝聚点凝聚。动态凝聚的一般步骤是:,聚类分析的特点,不同聚类方法所得到的分类结果可能不同。 统计的优势在于每一种聚类过程可以在瞬间完成,因此可以进行大量尝试性的分析,并对结果进行比较,以便我们对数据做出更加合理的结论。,