1、2018年9月22日星期六,Data Mining: Concepts and Techniques,1,第八章 聚类分析,8.1 什么是聚类分析? 8.2 聚类分析中的数据类型 8.3主要聚类分析方法分类 8.4 划分方法(Partitioning Methods) 8.5 分层方法 8.6 基于密度的方法 8.7 基于网格的方法 8.8 基于模型(Model-Based)的聚类方法 8.9 孤立点分析 8.10 总结,8.1什么是聚类分析?,簇(Cluster):一个数据对象的集合 聚类分析 把一个给定的数据对象集合分成不同的簇; 在同一个簇(或类)中,对象之间具有相似性; 不同簇(或类)
2、的对象之间是相异的。 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤;,2018年9月22日星期六,Data Mining: Concepts and Techniques,3,聚类的常规应用,模式识别 空间数据分析 在GIS中,通过聚类发现特征空间来建立主题索引; 在空间数据挖掘中,检测并解释空间中的簇; 图象处理 经济学 (尤其是市场研究方面) WWW 文档分类 分析WEB日志数据来发现相似的访问模式,2018年9月22日星期六,Data Mining: Concepts and Technique
3、s,4,应用聚类分析的例子,市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;,2018年9月22日星期六,Data Mining: Concepts and Techniques,5,什么是一个好的聚类方法?,一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点: 高的簇内相似性
4、低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;,2018年9月22日星期六,Data Mining: Concepts and Techniques,6,数据挖掘对聚类的典型要求:,可伸缩性 能够处理不同类型的属性 能发现任意形状的簇 在决定输入参数的时候,尽量不需要特定的领域知识; 能够处理噪声和异常 对输入数据对象的顺序不敏感 能处理高维数据 能产生一个好的、能满足用户指定约束的聚类结果 结果是可解释的、可理解的和可用的,2018年9月22日星期六,Data Mining: Concep
5、ts and Techniques,7,8.2 聚类分析中的数据类型两种数据结构,数据矩阵 (two modes)差异度矩阵 (one mode),2018年9月22日星期六,Data Mining: Concepts and Techniques,8,评价聚类质量,差异度/相似度矩阵: 相似度通常用距离函数来表示; 有一个单独的质量评估函数来评判一个簇的好坏; 对不同类型的变量,距离函数的定义通常是不同的,这在下面有详细讨论; 根据实际的应用和数据的语义,在计算距离的时候,不同的变量有不同的权值相联系; 很难定义“足够相似了”或者“足够好了”只能凭主观确定;,2018年9月22日星期六,Da
6、ta Mining: Concepts and Techniques,9,聚类分析中的数据类型,区间标度变量(Interval-scaled variables): 二元变量(Binary variables): 标称型,序数型和比例型变量(Nominal, ordinal, and ratio variables): 混合类型变量(Variables of mixed types):,2018年9月22日星期六,Data Mining: Concepts and Techniques,10,区间标度变量,数据标准化 计算绝对偏差的平均值:其中 计算标准度量值 (z-score)使用绝对偏差的
7、平均值比使用标准偏差更健壮(robust),2018年9月22日星期六,Data Mining: Concepts and Techniques,11,计算对象之间的相异度,通常使用距离来衡量两个对象之间的相异度。 常用的距离度量方法有:明考斯基距离( Minkowski distance):其中 i = (xi1, xi2, , xip) 和 j = (xj1, xj2, , xjp) 是两个p维的数据对象, q是一个正整数。 当q = 1时, d 称为曼哈坦距离( Manhattan distance),2018年9月22日星期六,Data Mining: Concepts and Tec
8、hniques,12,当q=2时, d 就成为欧几里德距离:距离函数有如下特性: d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) 可以根据每个变量的重要性赋予一个权重,2018年9月22日星期六,Data Mining: Concepts and Techniques,13,二元变量,二元变量的可能性表其中每个对象有p个变量,且p=q+r+s+t,Object i,Object j,2018年9月22日星期六,Data Mining: Concepts and Techniques,14,二元变量,对称的如果一个二元变量的两
9、个状态是同等价值的,具有相同的权重。即可以任取其中一种状态编码为1或者0对于对称的二员变量,采用简单匹配系数来评价两个对象之间的相异度,2018年9月22日星期六,Data Mining: Concepts and Techniques,15,二元变量,非对称的如果变量的两个状态不是同样重要的,则称该变量是不对称的。根据惯例,将比较重要通常也是出现概率比较小的状态编码为1,将另一中状态编码为0。对于非对称的二员变量,采用Jaccard系数来评价两个对象之间的相异度,2018年9月22日星期六,Data Mining: Concepts and Techniques,16,二元变量的相异度计算,
10、例8.1gender 是一个对称的二元变量 其它的都是非对称的二元变量 将值 Y和 P 编码为1, 值 N 编码为 0,根据非对称变量Jaccard系数计算得:,2018年9月22日星期六,Data Mining: Concepts and Techniques,17,标称变量(Nominal Variables),标称变量是二元变量的推广,它可以具有多于两个的状态,比如 变量map_color可以有 red, yellow, blue, green四种状态。有两种计算相异度的方法: 方法1: 简单匹配方法 M是匹配的数目, p是全部变量的数目方法2: 使用二元变量 为每一个状态创建一个新的二
11、元变量,可以用非对称的二元变量来编码标称变量。,2018年9月22日星期六,Data Mining: Concepts and Techniques,18,序数型变量,一个序数型变量可以是离散的也可以是连续的离散的序数型变量类似于标称变量,除了它的M个状态是以有意义的序列排序的,比如职称 连续的序数型变量类似于区间标度变量,但是它没有单位,值的相对顺序是必要的,而其实际大小并不重要。,2018年9月22日星期六,Data Mining: Concepts and Techniques,19,序数型变量,相异度的计算与区间标度变量的计算方法相类似 将xif 用它对应的秩代替 将每个变量的值域映射
12、到0.0,1.0上,使得每个变量都有相同的权重。这通过用zif来替代rif来实现用前面所述的区间标度变量的任一种距离计算方法来计算,2018年9月22日星期六,Data Mining: Concepts and Techniques,20,比例标度型变量(Ratio-scaled variable),比例标度型变量: 总是取正的度量值,有一个非线性的标度,近似的遵循指数标度,比如 AeBt or Ae-Bt 计算相异度的方法: 采用与处理区间标度变量相同的方法 不是一个好的选择 进行对数变换,对变换得到的值在采用与处理区间标度变量相同的方法 yif = log(xif) 将其作为连续的序数型数
13、据,将其秩作为区间标度的值来对待。,2018年9月22日星期六,Data Mining: Concepts and Techniques,21,混合类型的变量(230页),一个数据库可能包含了所有这6中类型的变量用以下公式计算对象i,j之间的相异度.其中,p为对象中的变量个数如果xif或xjf 缺失(即对象i或对象j没有变量f的值),或者xif = xjf =0,且变量f是不对称的二元变量,则指示项ij(f)=0;否则ij(f)=1,2018年9月22日星期六,Data Mining: Concepts and Techniques,22,混合类型的变量,f 是二元变量或标称变量: if xi
14、f = xjf dij(f) = 0, else dij(f) = 1 f 是区间标度变量: dij(f) = | xif-xjf |/( maxhxhf-minhxhf )其中h遍取变量f的所有非空缺对象 f 是序数型或比例标度型 计算秩 rif 计算 zif并将其作为区间标度变量值对待,2018年9月22日星期六,Data Mining: Concepts and Techniques,23,8.3主要聚类分析方法分类,Partitioning algorithms: Construct various partitions and then evaluate them by some c
15、riterion Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some criterion Density-based: based on connectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters
16、 and the idea is to find the best fit of that model to each other,2018年9月22日星期六,Data Mining: Concepts and Techniques,24,8.4 划分方法(232页),划分方法: 将一个包含n个数据对象的数据库组织成k个划分(k=n),其中每个划分代表一个簇(Cluster)。 给定一个k,要构造出k个簇,并满足采用的划分准则: 全局最优:尽可能的列举所有的划分; 启发式方法: k-平均和k-中心点算法 k-平均 (MacQueen67):由簇的中心来代表簇; k-中心点或 PAM (Part
17、ition around medoids) (Kaufman & Rousseeuw87): 每个簇由簇中的某个数据对象来代表。,2018年9月22日星期六,Data Mining: Concepts and Techniques,25,K-平均算法,给定k,算法的处理流程如下: 1.随机的把所有对象分配到k个非空的簇中; 2.计算每个簇的平均值,并用该平均值代表相应的簇; 3.将每个对象根据其与各个簇中心的距离,重新分配到与它最近的簇中; 4.回到第二步,直到不再有新的分配发生。,2018年9月22日星期六,Data Mining: Concepts and Techniques,26,K-
18、平均算法,例8.2,2018年9月22日星期六,Data Mining: Concepts and Techniques,27,K-平均算法,优点 相对高效的: 算法复杂度O(tkn), 其中n 是数据对象的个数, k 是簇的个数, t是迭代的次数,通常k, t n. 算法通常终止于局部最优解; 缺点 只有当平均值有意义的情况下才能使用,对于类别字段不适用; 必须事先给定要生成的簇的个数; 对“噪声”和异常数据敏感; 不能发现非凸面形状的数据。,2018年9月22日星期六,Data Mining: Concepts and Techniques,28,K-平均算法的变种,一些变种在下面几个方面
19、有所不同: 初始k个平均值的选择; 相异度的计算; 计算簇的平均值的策略; 处理种类字段: k-模算法 (Huang98) 用模来替代平均值; 用新的相异度计算方法来处理类别字段; 用基于频率的方法来修改簇的模; k-原型算法:综合k-平均和k-模算法,能同时处理类别字段和数值字段。,2018年9月22日星期六,Data Mining: Concepts and Techniques,29,K-中心点算法,找出簇中位置最中心的对象,即中心点来代表簇 PAM (Partitioning Around Medoids, 1987) 设定一个中心点的初始集合,然后反复的用非中心点对象来替代中心点对象
20、,以改进聚类的质量; PAM 算法在大数据集上效率较低,没有良好的可伸缩性; CLARA (Kaufmann & Rousseeuw, 1990) CLARANS (Ng & Han, 1994): Randomized sampling,2018年9月22日星期六,Data Mining: Concepts and Techniques,30,PAM (Partitioning Around Medoids) (1987),PAM (Kaufman and Rousseeuw, 1987) 用真实的数据对象来代表簇 随机选择k个对象作为初始的中心点; Repeat 对每一个由非中心对象h 和
21、中心对象 i, 计算i被h替代的总代价 Tcih 对每一个有h和I组成的对象对 If TCih 0, i 被 h替换 然后将每一个非中心点对象根据与中心点的距离分配给离它最近的中心点 Until不发生变化。,2018年9月22日星期六,Data Mining: Concepts and Techniques,31,PAM Clustering: Total swapping cost TCih=jCjih,2018年9月22日星期六,Data Mining: Concepts and Techniques,32,CLARA (Clustering Large Applications) (19
22、90),CLARA (Kaufmann and Rousseeuw in 1990)该算法首先获得数据集的多个采样,然后在每个采样上使用PAM算法,最后返回最好的聚类结果作为输出。 优点: 能够处理大数据集。 缺点: 效率依赖于采样的大小; 如果样本发生偏斜,基于样本的一个好的聚类不一定代表得了整个数据集合的一个好的聚类;,2018年9月22日星期六,Data Mining: Concepts and Techniques,33,CLARANS (“Randomized” CLARA) (1994),CLARANS (A Clustering Algorithm based on Random
23、ized Search) (Ng and Han94) CLARANS 在搜索的每一步动态的抽取一个样本; 聚类过程可以被描述为对一个图的搜索,图中的每个节点是一个潜在的解,即k个中心点的集合;在替换 了一个中心点后的结果被称为当前结果的邻居。 如果找到了一个局部最优,算法从随即选择的节点开始寻找新的局部最优; 比PAM 和 CLARA更有效和有更好的伸缩性; 采用聚焦技术和空间数据结构等能进一步提高性能(Ester et al.95),2018年9月22日星期六,Data Mining: Concepts and Techniques,34,8.5 分层方法,采用距离作为衡量聚类的标准。该方
24、法不在需要指定聚类的个数,但用户可以指定希望得到的簇的数目作为一个结束条件。,2018年9月22日星期六,Data Mining: Concepts and Techniques,35,AGNES (Agglomerative Nesting),由 Kaufmann 和 Rousseeuw 提出;(1990) 使用单链接方法和差异度矩阵; 合并那些具有最小差异度的节点; Go on in a non-descending fashion 最后所有的对象合并形成一个簇。,2018年9月22日星期六,Data Mining: Concepts and Techniques,36,A Dendrog
25、ram Shows How the Clusters are Merged Hierarchically,Decompose data objects into a several levels of nested partitioning (tree of clusters), called a dendrogram. A clustering of the data objects is obtained by cutting the dendrogram at the desired level, then each connected component forms a cluster
26、.,2018年9月22日星期六,Data Mining: Concepts and Techniques,37,DIANA (Divisive Analysis),由 Kaufmann 和 Rousseeuw 提出(1990) AGNES算法的逆过程; 最终每个新的簇只包含一个对象;,2018年9月22日星期六,Data Mining: Concepts and Techniques,38,层次方法的主要缺点: 没有良好的伸缩性: 时间复杂度至少是 O(n2) 一旦一个合并或分裂被执行,就不能修复; 综合层次聚类和其它的聚类技术: BIRCH (1996): uses CF-tree and
27、incrementally adjusts the quality of sub-clusters CURE (1998): selects well-scattered points from the cluster and then shrinks them towards the center of the cluster by a specified fraction CHAMELEON (1999): hierarchical clustering using dynamic modeling,2018年9月22日星期六,Data Mining: Concepts and Techn
28、iques,39,BIRCH (1996),Birch: Balanced Iterative Reducing and Clustering using Hierarchies, by Zhang, Ramakrishnan, Livny (SIGMOD96) 增量的构造一个CF树 Phase 1: 扫描数据库,建立一个初始存放于内存的CF树,它可以被看作数据的多层压缩,试图保留数据内在的聚类结构; Phase 2: 采用某个聚类算法对CF树的叶子节点进行聚类; 可伸缩性: 数据集合的单边扫描产生了一个基本的聚类,额外的扫描可以进一步的改进聚类的质量。 缺点: 只能处理数值型数据;对于非球状
29、的簇不能很好的工作。,2018年9月22日星期六,Data Mining: Concepts and Techniques,40,Clustering Feature Vector,CF = (5, (16,30),(54,190),(3,4) (2,6) (4,5) (4,7) (3,8),2018年9月22日星期六,Data Mining: Concepts and Techniques,41,CF Tree,CF1,child1,CF3,child3,CF2,child2,CF5,child5,CF1,CF2,CF6,prev,next,CF1,CF2,CF4,prev,next,B =
30、 7 L = 6,Root,Non-leaf node,Leaf node,Leaf node,2018年9月22日星期六,Data Mining: Concepts and Techniques,42,CURE (Clustering Using REpresentatives ),CURE: proposed by Guha, Rastogi & Shim, 1998 Stops the creation of a cluster hierarchy if a level consists of k clusters Uses multiple representative points
31、to evaluate the distance between clusters, adjusts well to arbitrary shaped clusters and avoids single-link effect,2018年9月22日星期六,Data Mining: Concepts and Techniques,43,Drawbacks of Distance-Based Method,Drawbacks of square-error based clustering method Consider only one point as representative of a
32、 cluster Good only for convex shaped, similar size and density, and if k can be reasonably estimated,2018年9月22日星期六,Data Mining: Concepts and Techniques,44,Cure: The Algorithm,Draw random sample s. Partition sample to p partitions with size s/p Partially cluster partitions into s/pq clusters Eliminat
33、e outliers By random sampling If a cluster grows too slow, eliminate it. Cluster partial clusters. Label data in disk,2018年9月22日星期六,Data Mining: Concepts and Techniques,45,Data Partitioning and Clustering,s = 50 p = 2 s/p = 25,x,x,s/pq = 5,2018年9月22日星期六,Data Mining: Concepts and Techniques,46,Cure:
34、Shrinking Representative Points,Shrink the multiple representative points towards the gravity center by a fraction of . Multiple representatives capture the shape of the cluster,2018年9月22日星期六,Data Mining: Concepts and Techniques,47,K-modes(补充),A Fast Clustering Algorithm to Cluster Very Large Catego
35、rical Data Sets in Data Mining,Zhexue Huang,1997 K-模,对k-平均方法的改进,k-原型的简化 处理分类属性 分类属性:A1,A2,Am为空间的m个属性, DOM(Ai)为属性的值域,如果DOM(Ai) 是确定和无序的,即对任何a,b A,只有a=b或者ab,则称Ai为分类属性 如果A1,A2,Am都为分类属性,则属性为分类空间,2018年9月22日星期六,Data Mining: Concepts and Techniques,48,相异度度量,设X,Y为m个分类属性的分类对象,它们之间的相异度定义为: d(x,y)对一个属性上的每个类赋予了相
36、同的权重考虑属性出现的频率 对出现频率较低的类给予了更大的权重nxj为数据集中属性j上的值为xj的对象数,2018年9月22日星期六,Data Mining: Concepts and Techniques,49,数据集的模(mode),设X为一组分类对象,分类属性包括A1,A2,AM X=X1,X2,Xn的模:向量Q=q1,q2,qm,使得 最小 定理:函数D(Q,X)为最小,当且仅当 对所有的j=1,m有Nck,j是在属性上Ai值为ck,j的对象数,2018年9月22日星期六,Data Mining: Concepts and Techniques,50,K模算法,1.为每个簇选择初始模,
37、共k个 2.根据d,把对象分配给最近的簇。根据定理重新计算簇的模 3.计算每个对象对当前模的相异度,重新分配对象到簇 4.重复上述2,3过程,直到簇中的对象不再发生变化,2018年9月22日星期六,Data Mining: Concepts and Techniques,51,8.6 基于密度的方法 将簇看作是数据空间中被低密度区域分割开的高密度区域。 优点:可发现任意形状的聚,基于密度的方法: DBSCAN 基于高密度连接区域的密度聚类方法 OPTICS 通过对象排序识别聚类结构 DENCLUE 基于密度分布函数的聚类,2018年9月22日星期六,Data Mining: Concepts
38、and Techniques,52,DBSCAN(基于高密度连接区域的密度聚类方法),Density-Based Spatial Clustering of Applications with Noise A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with NoiseMartin Ester,KDD-96,2018年9月22日星期六,Data Mining: Concepts and Techniques,53,定义,给定半径和MinPts ,每个聚类中的对象的-邻域中至少包含Mi
39、nPts个对象 给定对象集合D 邻域N(q): 给定对象半径内的区域,即q D | dist(p,q) = 核心对象:q D,|N(q)|MinPts 对象p从对象q出发是直接密度可达:pN(q)且|N(q)| MinPts,2018年9月22日星期六,Data Mining: Concepts and Techniques,54,定义(续),对象p从对象q关于和MinPts密度可达:存在对象链p1,p2,pn,p1=q,pn=p,piD,pi+1是从pi关于和MinPts直接密度可达的(非对称) 对象p和q关于和MinPts密度相连:存在对象o D,使得对象p和q 从o关于和MinPts密度
40、可达(对称),2018年9月22日星期六,Data Mining: Concepts and Techniques,55,DBSCAN基本思想,簇:基于密度可达性的最大的密度相连对象的集合 噪音:不在任何簇中的对象 边界对象:不是核心对象,但在簇中,即至少从一个核心对象直接可达,2018年9月22日星期六,Data Mining: Concepts and Techniques,56,DBSCAN算法,1)任意选择没有加簇标签的点 p 2)找到从p关于 and MinPts 密度可达的所有点 3)如果|N(q)|MinPts ,则p是核心对象,形成一个新的簇,给簇内所有的对象点加簇标签 4)如
41、果p 是边界点, 则处理数据库的下一点 5)重复上述过程,直到所有的点处理完毕, = 1cm MinPts = 5,2018年9月22日星期六,Data Mining: Concepts and Techniques,57,不足和改进,只能发现密度相仿的簇 对用户定义的参数( and MinPts )敏感 计算复杂度为O(n2)采用R-树等空间索引技术,计算复杂度为o(nlogn),2018年9月22日星期六,Data Mining: Concepts and Techniques,58,图示,A 和 B被认为是噪音C1和C2两个簇合并了,2018年9月22日星期六,Data Mining:
42、Concepts and Techniques,59,OPTICS,OPTICS:Ordering Points To Identify the Clustering Structure(通过对象排序识别聚类结构) Mihael Ankerst .ACM SIGMOD99 Int.Conf,1999 对DBSCAN的改进 对输入参数不敏感 可以发现不同密度的簇 用图表等可视化的方式来表示 按可达距离排序 可自动开采,也可与用户交互,2018年9月22日星期六,Data Mining: Concepts and Techniques,60,引入两个新概念,P 为对象,数据集D,为距离值,N(q)
43、为邻域,MinPts P 的核心距离:使得P成为核心对象的最小 若|( N(q)| MinPts,即P不是核心对象,则无定义,即无穷大 否则,定义为使P成为核心对象的的最小值 P 关于对象q的可达距离:p的核心距离和p,q的欧几里得距离之间的较大值 若|N(q)| MinPts,即P不是核心对象,则无定义 否则,定义为Max(核心距离,|(p,q)|),2018年9月22日星期六,Data Mining: Concepts and Techniques,61,图示,核心距离可达距离,2018年9月22日星期六,Data Mining: Concepts and Techniques,62,OP
44、TICS算法,1.计算数据点p的核心距离和可达距离 2.如果p为核心对象,找到所有它的关于 和MinPts的直接密度可达点,按可达距离排序并插入队列。 3.处理下一个数据点,2018年9月22日星期六,Data Mining: Concepts and Techniques,63,寻找簇,Cluster-order of the objects,2018年9月22日星期六,Data Mining: Concepts and Techniques,64,不同密度、形状、大小的簇,2018年9月22日星期六,Data Mining: Concepts and Techniques,65,参数的影响
45、,减小,则可达距离为无穷大的点增多;MinPts减小,核心对象增多,图象更尖锐,2018年9月22日星期六,Data Mining: Concepts and Techniques,66,确定参数,MinPts经验值:10-20,2018年9月22日星期六,Data Mining: Concepts and Techniques,67,DENCLUE,DENsity-based CLUstering An Efficient Application to Clustering in Large Multimedia Databases with Noise(在带噪音的大型多维数据库上的高效的聚
46、类方法) Alexander Hinnebug,1998,2018年9月22日星期六,Data Mining: Concepts and Techniques,68,数学基础,1.影响函数描述了一个数据点在邻域的影响 2.数据空间的整体密度函数为所有数据点的影响函数之和 3.聚类可以通过确定密度吸引点来得到,密度吸引点为密度函数的局部最大,2018年9月22日星期六,Data Mining: Concepts and Techniques,69,影响函数,假设x 和y是特征空间中的对象。数据对象y对x的影响函数为 原则上影响函数可以是任意的函数,它由邻域内的两个对象之间的距离决定方波影响函数高
47、斯函数一个点x是被一个密度吸引点y密度吸引的:如果存在一组点x0,xk,x0=x,xk=y,对0ik,xi-1的梯度是在xi的方向上的 一个梯度指导的爬山算法可用来计算一组数据点的密度吸引点,2018年9月22日星期六,Data Mining: Concepts and Techniques,70,梯度和密度吸引点,2018年9月22日星期六,Data Mining: Concepts and Techniques,71,爬山算法,1.在收缩空间随机选择一点. 2.考虑当前状态的所有邻域 3.选择最佳的邻域,当前状态转向它 4.重复过程2,3,直到当前状态为邻域中最佳 5.返回当前状态作为结果
48、,2018年9月22日星期六,Data Mining: Concepts and Techniques,72,对一个2维数据集的可能的密度函数,2018年9月22日星期六,Data Mining: Concepts and Techniques,73,簇,密度吸引点x的中心定义的簇是一个被x密度吸引的子集C,在x的密度函数不小于阈值;否则它被认为是孤立点 一个任意形状的簇是子集C的集合,每一个都是密度吸引的,有不小于阈值的密度函数值;并从每个区域到另一个都存在一条路径p,路径上的每个点的密度函数值都不小于,2018年9月22日星期六,Data Mining: Concepts and Tech
49、niques,74,Chapter 8. Cluster Analysis,基于密度的方法 DBSCAN OPTICS DENCLUE 基于网格的方法 STING WaveCluster CLIQUE 基于模型的方法 统计学方法 神经网络方法 孤立点分析 小结,2018年9月22日星期六,Data Mining: Concepts and Techniques,75,8.7 基于网格的方法,采用一个多分辨率的网状数据结构。将空间化为有限数目的单元,这些单元形成了网格结构,聚类在网格上进行。 优点:处理速度快,处理时间独立于数据对象的数目,仅依赖于量化空间中每一维上的单元数目。 基于网格的方法STING 利用存储在网格单元中的统计信息;WaveCluster 用一种小波转换方法来聚类对象;CLIQUE 在高维数据空间中基于网格和密度的聚类方法。,2018年9月22日星期六,Data Mining: Concepts and Techniques,