收藏 分享(赏)

10-聚类分析-第十章 郏东耀.ppt

上传人:无敌 文档编号:1071402 上传时间:2018-06-09 格式:PPT 页数:24 大小:419.52KB
下载 相关 举报
10-聚类分析-第十章 郏东耀.ppt_第1页
第1页 / 共24页
10-聚类分析-第十章 郏东耀.ppt_第2页
第2页 / 共24页
10-聚类分析-第十章 郏东耀.ppt_第3页
第3页 / 共24页
10-聚类分析-第十章 郏东耀.ppt_第4页
第4页 / 共24页
10-聚类分析-第十章 郏东耀.ppt_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、1,聚类分析,郏东耀,2,聚类,俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。,3,什么是聚类?,聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;,4,为什么需要聚类?,对相似的文档或超链接进行聚类,由于类别数远小于文档数,能够加快用户寻找相关信息的速度;,5,聚类图示,聚类中没有任何指导信息,完全按照

2、数据的分布进行类别划分,6,聚类分析,聚类分析根据分类对象的不同分为Q型和R型两大类:Q型是对样本进行分类处理,R型是对变量进行分类处理。R型聚类分析的特点是:(1)不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度;(2)根据变量的分类结果以及它们之间的关系,可以选择主要变量聚类分析,选择主要变量的方法是:在聚合的每类变量中,各选出一个有代表性的变量作为典型变量。Q型聚类分析的特点是:(1)能综合利用多个变量对样本进行分类;(2)分类结果是直观的,聚类谱系图很明确、清楚地表现其数值分类结果;(3)聚类分析所得到的结果比传统分类方法更细致、全面、合理。,7,饮料数据(d

3、rink.sav ),16种饮料的热量、咖啡因、钠及价格四种变量,8,什么是分类?,数据集合 ,类别标记集合数据集合: 训练数据 待分类数据已知问题:方法:根据训练数据获得类别划分标准,9,分类图示,训练数据,待分类数据,10,聚类与分类的区别,有类别标记和无类别标记;有监督与无监督;(有训练语料与无训练语料)Train And Classification (分类);No Train(聚类);,11,聚类的基本要素,定义数据之间的相似度;聚类有效性函数(停止判别条件); 1. 在聚类算法的不同阶段会得到不同的类别划分结果,可以通过聚类有效性函数来判断多个划分结果中哪个是有效的; 2. 使用有

4、效性函数作为算法停止的判别条件,当类别划分结果达到聚类有效性函数时即可停止算法运行;类别划分策略(算法); 通过何种类别划分方式使类别划分结果达到有效性函数;,12,如何度量远近?,如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。,13,两个距离概念,按照远近程度

5、来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。,14,向量x=(x1, xp)与y=(y1, yp)之

6、间的距离或相似系数:,欧氏距离:Euclidean,平方欧氏距离:Squared Euclidean,夹角余弦(相似系数1) :cosine,Pearson correlation(相似系数2):,Chebychev: Maxi|xi-yi|,Block(绝对距离): Si|xi-yi|,Minkowski:,15,类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xi Gp和xj Gq之间的距离),最短距离法:,最长距离法:,重心法:,类平均法:,16,最长距离,最短距离,A,B,C,D,E,F,17,了解点间距离和类间距离的概念,就可以介绍聚类的方法了。这里介绍两个简单的方法。,18,

7、事先要确定分多少类:k-均值聚类,聚类可以顺其自然,不一定事先确定有多少类;但是这里的k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)却要求你先说好要分多少类。假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子” ;也就是说,把这3个点作为三类中每一类的基石。然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来的“种子”就没用了),重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到

8、同一类中呢。下面用饮料例的数据来做k-均值聚类。,19,K-means Clustering模型,将N个样本x1,xN划分到m个类C1,Cm中,最小化评分函数,这里 c1,cm 是C1,Cm的质心, 是划分到类Cj的样本,20,K-means步骤,1 设置初始类别中心和类别数;2 根据类别中心对数据进行类别划分;3 重新计算当前类别划分下每类的中心;4 在得到类别中心下继续进行类别划分;5 如果连续两次的类别划分结果不变则停止算法;否则循环25 ;,21,假定要把这16种饮料分成3类。通过计算,只叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以及每类有多少点,2

9、2,根据需要,可以输出哪些点分在一起。结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、16。,23,事先不用确定分多少类:分层聚类,另一种聚类称为分层聚类或系统聚类(hierarchical cluster)。开始时,有多少点就是多少类。它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。,24,聚类要注意的问题,聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。另外就分成多少类来说,也要有道理。根据你的意愿,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报