1、,地质与环境学院,College of Geology & Environment,俗话说:“物以类聚,人以群分”,在社会、经济、管理、气象、地质、人口、考古等众多领域,都存在着大量的分类研究问题。,分类是自然科学重要研究内容之一,第五章 聚类分析,第一节 概 述 第二节 数据的规格化处理 第三节 相似性度量 第四节 系统聚类法 第五节 应用实例,地质与环境学院,College of Geology & Environment,合理的科学的分类,能够反映某类事物的最基本的特征以及同别类事物的区别,推动学科的发展和科学研究。,第一节 概 述,在地学领域:岩石、矿物、构造、地层、古生物等 在环境领
2、域:环境质量 在经济领域:股市,聚类分析:是一种分类技术,它是根据“物以类聚”的道理,对事物(样品或指标)进行分类的一种多元统计方法,又称“群分析、点群分析、簇群分析”。,一、聚类分析的含义,根据事物本身的特征分类,即, 将事物性质相近的归为一类,将事物性质的差异较大的归在不同的类。 所谓“类”,通俗地说就是相似元素的集合。 分类,是将一个观测对象指定到某一类(组)。,聚类分析特点:,将事物性质相近的归为一类, 将事物性质的差异较大的归在不同的类。,当有一个分类指标时,分类比较容易。 当有多个分类指标时,要进行分类就不是很容易了。由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平
3、均的方法,这样会忽视相对重要程度的问题。,聚类分析的含义,聚类分析方法的产生,传统的分类方法起源很早,在古老的分类学中,人们主要靠经验和专业知识进行定性的分析, 许多分类往往带有主观性和任意性,不能揭示客观事物的内在本质差别和联系。,聚类分析方法的产生,随着人类科学技术的发展,对分类的要求越来越高,仅凭经验和专业知识难以确切的进行分类,特别是对于多因素、多指标的分类问题。 数学工具引用到分类学中,形成数值分类学, 后来又将多元分析的技术引入到数值分类学,逐步形成聚类分析这一数值分类方法。,聚类分析方法的分类,根据分类对象 Q型:研究样品之间的关系,把不同的物体归类分群 R型:研究同一物种不同变
4、量之间的关系,根据维数:1、2、多,根据聚类的方法:系统聚类、分解法,系统聚类法:最短距离法(近邻连接法)、最长距离法(远邻连接法)类平均法、重心法、离差平方和增量法,二、聚类分析的对象类型,R型聚类,以分类对象为标准,可以将变量(指标)分类R型聚类分析。如城镇居民消费水平通常用八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类等。,在生产活动中不乏有变量聚类的实例,如:衣服型号就是根据人体各部分尺寸数据找出最有代表性的指标如身长、胸围和裤长、腰围作为上衣和裤子的代表性指标。变量聚类使批量生产成为可能。,R 型聚类是对变
5、量进行分类处理。一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究。因此需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。,Q型聚类,Q 型聚类是对样品进行分类,即对观测进行分类。根据观测有关变量的特征,将特征相似的样品归为一类。它是聚类分析中用的最多的一种。,Q 型、 R型这两种聚类在数学上是对称的,没有什么不同。,主要讨论Q型聚类分析问题。,三、聚类分析的基本思想,我们所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),于是:(1)根据一批样品的多个观测指标,具体找出一
6、些能够度量样品或变量(指标)之间相似程度的统计量;,与多元分析的其它方法比,聚类分析方法较为粗糙,理论上还不够完善,但应用方便、广泛,与回归分析、判别分析一起被称为多元分析的三大方法。,(2)以这些统计量为分类的依据,建立一种分类方法,将一批样品或变量(指标),按照它们在性质上的亲疏、相似程度进行分类。,第二节 数据的规格化处理,一、聚类分析的数据格式,设有n个样品单位,每个样品测得 m 项变量(指标),原始资料阵为:,第i个样品Xi为矩阵X的第i行所描述,任何两个样品Xk与XL之间的相似性,可以通过矩阵X中的第K行与第 L 行的相似程度来刻划;,xij(i=1,n;j=1,m)为第i个样品的
7、第j个指标的观测数据。,任何两个变量xk与xL之间的相似性,可以通过第K列与第L列的相似程度来刻划。,xij(i=1,n;j=1,m)为第i个样品的第j个指标的观测数据。,为了将样本进行分类,就需要研究样品之间的关系; 为了将变量进行分类,就需要研究变量之间的关系。无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。,二、变量测量尺度的类型,通常,变量按照测量的尺度不同,可以分为三类:,二、变量测量尺度的类型,间隔尺度(定距尺度、定量变量):变量用连续的量表示,由测量、计数或统计所得到的量。如,长度、重量、经济统计数字、抽样调查数据等;,间隔尺度、有
8、序尺度、 名义尺度,有序尺度(定序变量、定性变量): 用该变量度量时没有明确的数量表示,只有次序(等级)关系。如,产品质量,分为一等品、二等品等。,名义尺度(定类变量、定性变量):具有该种特性的变量在度量时既没有数量表示,也没有次序关系,而只有性质上的差异(用一些类表示)。如,性别、职业等。,不同类型的变量,在定义距离和相似系数时,其方法有很大差异。,在实际应用中,研究比较多的是间隔尺度,本章主要讨论具有间隔尺度变量的样品聚类分析方法。,数据的规格化处理,为了使不同量纲、不同取值范围的数据能放在一起进行比较,通常需要对数据进行规格化处理,即将原始数据矩阵中的每个元素,按照某种特定的运算,把它变
9、为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。,第二节 数据的规格化处理,1、数据标准化,第二节 数据的规格化处理,常用的变换方法,2、数据正规化,3、中心化,4、对数化,5、极大值规格化,6、均值规格化,7、标准差规格化,第三节 相似性度量,聚类分析用于系统类群相似性的研究的实质, 寻找一种能客观反映事物(样品或变量)之间亲疏(相近或相似)关系的统计量, 根据这种统计量把事物(样品或变量)分成若干类。,相似性度量:能够度量变量(或样品)之间相似性程度的数量指标。 常用的有相似系数、相关系数、欧氏距离、斜交距离、 离差(误差)平方和增量等。,描述样品(或变量)间相近(亲疏)、
10、相似程度的统计量很多,目前用得最多的聚类统计量是距离和相似系数,,距离系数一般用于对样品分类, 相似系数一般用于对变量聚类。,距离,假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,用距离来度量样品之间接近的程度,即两个样品间接近程度用p维空间中两点的距离来度量。,距离,在聚类过程中,距离较近的点倾向于归为一类,距离较远的点应归属不同的类。,样品间相近性(亲疏程度)的测度,首先我们看样本数据:,距离,距离,1、定义距离的准则,定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件),(样品 i 和样品 j 的
11、各指标相同),(对称性),(三角不等式),2、常用距离的算法,通常我们定义的距离一般是指欧氏距离(直线距离),几何平面上的点P(x1,x2)到原点o(0,0)的欧氏距离,依勾股定理,距离,Rp 中两点 X (x1,x2,xp)和 Y (y1,y2,yp)之间的欧氏距离为:,2、常用距离的算法,距离,常用距离明氏距离(Minkowski距离):,(通用的距离测度公式),2、常用距离的算法,距离,2、常用距离的算法,距离,(最直观的距离),当q=2时:欧氏距离(Euclidean),当q=1时:绝对值距离,当q=时:切比雪夫距离(Chebychev),当量纲不一致时,往往突出数量级高的变量的作用,
12、压低数量级低的变量作用结果与实际有较大偏差 维数m增加使Dik变大,其变化无规律可循 解决: 原始数据预处理 修正公式,欧氏距离系数Dik大小受变量观测值量纲影响和变量个数(维数)的影响。,量纲原始数据预处理统一量纲变换:成为无量纲的、具有统一尺度的数据,使每个变量在同一水平上显示各自的作用。,维数修正公式消除维数影响,并将欧氏距离系数的变化范围限制在(0,1)之间。当两点距离越小,dik越大,两样品相似性愈大;反之,距离,dik,相似性,例如:对体重和身高进行测量,采用不同单位,其距离测量 的结果不同。,当长度为cm时:,当长度为mm时:,通常改进办法有两个:,(1)当各指标的测量值相差悬殊
13、时,先对数据标准化,用标准化后的数据计算距离。标准化后的数据,每个变量的样本均值为0,标准差为1,与变量的量纲无关;,常用的聚类分析软件中都有这项功能,可以自动完成。,(2)为克服变量之间的相关性影响,可以采用马氏距离。,下面用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。,设有两个正态总体,,给定一个样品位于A处,试问A处的样品离哪一个总体较近。,按欧氏距离来度量,A点离 的中心 ,要比离 的中心 “近一些”, 从概率论的角度来看,A点位于 右侧约 处,而位于 左侧约 处,用标准差来度量,那么A点离 要比离 “近一些”。,从图上看,,显然,概率论的角度的度量更为合理。 它是用坐标差平方
14、除以方差(或乘以方差的倒数),从而化为无量纲数, 推广到多维就要乘以协方差阵 的逆矩阵 ,这就是是马氏距离的概念。,马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用。,2、常用距离的算法,,考虑点 X 到,G1、G2的相对距离:,设,其中,如果,存在,则两个样品之间的马氏距离为:,马氏距离虽然考虑了观测变量之间的相关性,并且也不受观测变量量纲不同的影响, 在聚类分析之前,如果用全部数据计算的均值向量和协方差矩阵来计算马氏距离,效果并不是很好。,马氏距离,2、常用距离的算法,比较合理的办法是用各个类的样本来计算各自的协方差矩阵,
15、同一类样本的马氏距离应当用这一类的协方差矩阵来计算。 然而,类的形成要依赖于样品之间的距离,反过来样品间合理的马氏距离又依赖于类,这就形成了一个恶性循环。,马氏距离,2、常用距离的算法,因此,在实际聚类分析处理中,马氏距离也不是理想的距离。,兰氏距离(Canberra),仅适用于一切,的情况,,这个距离有助于克服各指标之间量纲的影响, 没有考虑指标之间的相关性。,2、常用距离的算法,距离,3、欧氏距离系数 一维:DAB=|xAxB| 二维:勾股定理M维(欧氏距离系数):,4、斜交距离,离差平方和增量,组内离差平方和: 先计算组内每个变量的平均值, 再用每个变量与该平均值相减后的平方和相加得此值
16、。 “按列计算”,组内平均值计算:组内每个样品的某个变量(列)求和再除以样品数,2、常用距离的算法,距离,以上几种距离的定义均要求变量是间隔尺度的,如果使用的变量是有序尺度或名义尺度的,则有相应的一些定义距离的方法。,欧氏距离是聚类分析中用得最广泛的距离。,2、常用距离的算法,距离,两两样品的距离都算出来后,形成距离阵D,其中:,D是一个实对称阵,只须计算上(或下)三角形部分,根据 D可对 n 个点进行分类,距离近的点归为一类,距离远的点归为不同的类。,距离矩阵:,相似系数,有些事物的相似,并非要求数值上的一致或相近, 例如:三角形的相似、尽管尺寸、大小相差悬殊,却非常相似, 又如:两形象平行
17、,也可为非常相似,为此,必须引入另外一个聚类分析的统计量相似系数。,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性, 变量之间的关系越是密切,其相似系数越接近于1(或-1); 变量之间的关系越是疏远,其相似系数越接近于0。,相似系数,在聚类过程中,, 变量间相似性的测度,相似系数,比较相似的变量倾向于归为一类, 不怎么相似的变量归属不同的类。,相似系数,变量Xi 与 Xj的相似系数用Cij来表示。 对于间隔尺度,最常用的相似系数有两种:夹角余弦和相关系数。,相似系数,1.夹角余弦cosine尽管图中AB和CD长度不一样, 但形状相似。当长度不是主要矛盾时,就可 利用夹角余弦这样的相
18、似系数。,相似系数,变量Xi的n次观测值(X1i,X2i,Xni)看成n维空间的向量,则Xi和Xj夹角aij的余弦称为两向量的相似系数。( 它是P维空间中变量Xi的观测向量与变量Xj的观测向量之间夹角的余弦函数)。,1.夹角余弦 :,相似系数,将任何两个样品 与 看成 p 维空间的两个向量,这两个,向量的夹角余弦 用表示。则:,1.夹角余弦 :,由于-1 cos ij 1 ,其值越接近于 1 , 说明二样品的相似程度越高。 求出两两样品的相似系数,得到相似系数矩阵:,它是一个 n 阶实对称矩阵,其主对角元素为 1 。,1.夹角余弦 :,相似系数,2.相关系数:,相关系数常用rij表示,,把两两
19、样品的相关系数都计算出来,可形成样品相关系数矩阵。,其中 ,可根据R可对n个样品进行分类。,2.相关系数:,第四节 系统聚类法,系统聚类分析的基本思想,系统聚类法(分层聚类):是诸聚类分析方法中使用最多的一种,它是将类由多变到少的一种方法。,系统聚类分析的基本思想: 首先将所研究的每个样品各自看成一类, 然后根据样品间的相似程度,每次将最相似的两类合并。 计算新类与其他类之间的相似程度, 再选择最相似者加以合并,这样每合并一次,就减少一类, 继续这一过程,直到将所有样品合并成一类为止。,计算新类与其他类之间的相似程度, 再选择最相似类合并,这样每合并一次,就减少一类,,系统聚类分析的方法,(一
20、) 类间距离,根据问题和数据的实际情况,样品之间的距离:可从介绍过的几种聚类统计量中选取最合适的一种。类与类之间的距离:主要解决以谁来代表全类,由此产生不同的类间距离和不同的系统聚类过程。,以下用 表示样品 与 之间距离,用 表示类 与,之间的距离。,系统聚类分析的方法,(一)类间距离,常用系统聚类方法,1.最短距离法,(single linkage,nearest neighbor),样品间:欧氏距离 类类间:两类间两两样品距离最短。即,下图中样品A1和B2之间的距离.,类间距离,B1,B3,B2,A1,A2,最短距离(single linkage),聚类算法:把两个类之间的距离定义为一个类
21、的所有样品与另一个类的所有样品之间距离的最小者。,定义类Gi与Gj之间的距离为两类最近样品的距离,即,将GK和GL合并成一个新类,记为GM, 则任一类GJ 与GM的距离:,(1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵,开始每个样品自成一类, 。,(2)选择D(0)中非对角线的最小元素,设为DKL,,将GK和GL合并成一个新类,记为GM,即GM=GK,GL。,1.最短距离法,聚类步骤:,(3)计算新类与任一类之间的距离为 DJM=minDJK,DJL将D(0)中K、L行,K、L列用上式并成一个新行新列,,新行新列对应GM,所得矩阵记作D(1)。,(4)对D(1)重复
22、上述对D(0)的两步得D(2),直至,如果某一步D(m)中最小的元素不止一个,则对应这些最小元素的类可以同时合并。,所有元素合并成一类为止。,例:5个样品,每个样品只有一个指标,分别为:1.0,2.0,3.5,7.0,9.0,试用最短距离进行聚类分析。,解: (1)样品间的距离采用绝对距离,计算样品两两距离, 得距离矩阵D(0):,(2)D(0)样中非对角线最小元素为1,即D12=1,根据最短距离准则将G1、G2合并为一新类,记为G6=G1,G2; (3)计算G6与剩余其他类的距离,按照公式:D=min(Di1,Di2), 即D(0)的前两列中取较小者,得距离矩阵D(1) :,(2)D(0)样
23、中非对角线最小元素为1,即D12=1,根据最短距离准则将G1、G2合并为一新类,记为G6=G1,G2; (3)计算G6与剩余其他类的距离,按照公式:D=min(Di1,Di2), 即D(0)的前两列中取较小者,得距离矩阵D(1) :,(4)D(1)样中非对角线最小元素为1.5,即D36=1.5,根据最短距离准则将G3、G6合并为一新类,记为G7=G1,G2,G3; 即,D(1)的前两列中取较小者,得距离矩阵D(2) :,(4)D(1)样中非对角线最小元素为1.5,即D36=1.5,根据最短距离准则将G3、G6合并为一新类,记为G7=G1,G2,G3; 即,D(1)的前两列中取较小者,得距离矩阵
24、D(2) :,(5)D(2)样中非对角线最小元素为2.0,即D45=2.0,根据最短距离准则将G4、G5合并为一新类,记为G8=G4,G5; 即,D(2)的前两列中取较小者,得距离矩阵D(3) :,(5)D(2)样中非对角线最小元素为2.0,即D45=2.0,根据最短距离准则将G4、G5合并为一新类,记为G8=G4,G5; 即,D(2)的前两列中取较小者,得距离矩阵D(3) :,常用系统聚类方法,2.最长距离法,(complete linkage,furthest neighbor),样品间:欧氏距离 类类间:两类间样品两两距离最长。即下图中样品A2和B3之间的距离,最长距离(complete
25、 linkage),类间距离,B1,B3,A1,A2,B2,聚类算法: (1)把两个类之间的距离定义为一个类的所有样品与另一个类的所有样品之间的距离最大者, (2)并类的标准仍采用它与其它类的最小距离。,例:5个样品,每个样品只有一个指标,分别为:1.0,2.0,3.5,7.0,9.0,试用最长距离进行聚类分析。,解: (1)样品间的距离采用绝对距离,计算样品两两距离, 得距离矩阵D(0):,(2)D(0)样中非对角线最小元素为1,即D12=1,根据最短距离准则将G1、G2合并为一新类,记为G6=G1,G2; (3)计算G6与剩余其他类的距离,按照公式:D=max(Di1,Di2), 即D(0
26、)的前两列中取较小者,得距离矩阵D(1) :,(2)D(0)样中非对角线最小元素为1,即D12=1,根据最短距离准则将G1、G2合并为一新类,记为G6=G1,G2; (3)计算G6与剩余其他类的距离,按照公式:D=max(Di1,Di2), 即D(0)的前两列中取较小者,得距离矩阵D(1) :,(4)D(1)样中非对角线最小元素为2.0,即D45=2.0,根据最短距离准则将G4、G5合并为一新类,记为G7=G4,G5; 即,D(1)的前两列中取较小者,得距离矩阵D(2) :,(4)D(1)样中非对角线最小元素为2.0,即D45=2.0,根据最短距离准则将G4、G5合并为一新类,记为G7=G4,
27、G5; 即,D(1)的前两列中取较小者,得距离矩阵D(2) :,(5)D(2)样中非对角线最小元素为2.5,即D36=2.5,根据最短距离准则将G3、G6合并为一新类,记为G8=G3,G6; 即,D(2)的前两列中取较小者,得距离矩阵D(3) :,X1,X5,X4,X3,X2,G6,G8,G7,G9,系统聚类谱系图,有两种形式: 一种是组间联结法,组间联结法在计算距离时,只考虑两类之间样品之间的距离的平均, 另一种是组内联结法,组内联结法在计算距离时把两组所有样品之间的距离都考虑在内。,3.类平均法,(average linkage between group),常用系统聚类方法,类间距离,B
28、1,B3,B2,A1,A2,平均距离(average),4. 重心法,常用系统聚类方法,(centroid method),样品间:欧氏距离 类类间:两类重心(即该类样品的均值)之间的距离,重心法,类的重心之间的距离,从物理观点来看,一类即一组质点,用它的重心 (质量的中心)做为代表比较合理,由此产生重心法。,类与类之间的距离:定义为它们的重心(均值)之间的(平方)欧氏距离。设GK和GL的重心分别为xk和xL,则GK与GL之间的平方距离为:,(centroid method),4. 重心法,设某一步将GK和GL合并的新类为GM, 它们的重心分别是Xk、XL、Xm, 它们各有nk、nL、nm(n
29、m=nk+nL)个样品, 显然,新类GM与任一类GJ(重心为xJ)的平方距离是,这就是重心法的距离递推公式。,4. 重心法,重心法的归类步骤与以上三种方法基本上一样,所不同的是每合并一次类,就要重新计算新类的重心及各类与新类的距离。重心法在处理异常值方面比其它系统聚类法更稳健,有很好的代表性。,4. 重心法,常用系统聚类方法,(centroid method),5. Ward最小方差法,常用系统聚类方法,(Ward minimum variance method ),样品间:欧氏距离 类类间:离差平方和增量法,Ward最小方差法,由沃德提出,其思想来源于方差分析。如果分类正确,,Cluster
30、 K,Cluster L,Cluster M,同类样品的离差平方和 应当较小, 类与类之间的离差平方和应当较大。,设将n个样品分成k类:G1, G2, , Gk, 用 表示 中的第i个样品(注意 是p维向量), nt 表示Gt中的样品个数, 是Gt的重心,则Gt中样品的离差平方和为:,Ward最小方差法,k个类的类内离差平方和:,先将n个样品各自成一类,此时总离差平方和W=0, 然后每次将其中某两类合并为一类(因每缩小一类离差平方和就要增大), 每次选择使总离差平方和w增加最小的两类进行合并 直到所有的样品归为一类为止。,5.Ward最小方差法,基本思想:,系统聚类小结,几种系统聚类法,并类的
31、原则和步骤基本一致, 所不同的是类与类之间的距离有不同的定义,依此所给出的新类与任一类的距离公式不同。 可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图(有利于计算机程序的编制)。 Lance和Williams于1967年将其统一为:,各种系统聚类法公式的参数,在实际应用中,一般采用以下两种处理方法: 根据分类问题本身的专业知识,结合实际需要,选择分类方法,并确定分类个数。 用多种分类方法去作,取出结果中的共性来,如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质,而将有争议的样品暂放一边或用其它办法(如判别分析)去归类。,系统聚类法的步骤,1.数据变换
32、为了便于比较、计算上的方便或改变数据的结构;选择 度量样品间距离的定义(如欧氏距离)及度量类间距离的定义(如最短距离法)。,计算n个样品两两间的距离dij,得样品间的距离矩阵D(0); 3. 一开始(第一步:i=1)n个样品各自构成一类,类的个数k=n个类,Gi =X(i)(i=1,.n),此时类间的距离就是样品间的距离(即D(1) = D(0);,系统聚类法的步骤,4.合并距离最近的两类为一新类; 5.计算新类与当前其它各类的距离,得新的距离矩阵D(i),若合并后类的总个数k大于1,重复(3)和(4)步,直到类的个数为1时止;,系统聚类法的步骤,6.画谱系聚类图; 7.决定类的个数及各类的成
33、员。,系统聚类法的步骤,可选择适当的距离,计算距离,把每个样品看成一类,构造n个类,合并最近的两类为一新类,计算新类与当前各类的距离,判断,画聚类图,根据实际情况,确定类和类的个数,仅有一个类,不是仅有一个类,采用系统聚类法,第五节 应用实例,例1:从某地超基性岩石的某些样品中,得到与矿化度有关的一些元素的光谱分析数据。依次为:Ni,Co,Cu,Cr,S,As的原始数据,例2:某地煤层采样10块,做了显微组分含量分析,6个变量分别为镜质体、壳质体、半丝质体、其他惰性体、黄铁矿、其他矿物。,教材5.1,作 业,1.什么是聚类分析,简述其基本思想,2.试验五第一、二题,要求用手算和程序计算两种方法,