1、本科毕业论文(科研训练、毕业设计)题 目:基于孤立因子的层次聚类算法与应用BIRCH 算法与 CLOF 算法姓 名:学 院:软件学院系:专 业:软件工程年 级:学 号:指导教师(校内): 职称: 指导教师(校内): 职称: 年 月 日基于孤立因子的层次聚类算法与应用2基于孤立因子的层次聚类算法与应用摘要 在分析 BIRCH 算法与 CLAP 算法的优缺点基础上,结合孤立点挖掘算法,提出一种基于孤立点预测的层次聚类算法。该算法首先采用随机抽样,通过初步聚类的结果定义子聚类和数据项的孤立因子,并采用全局因子和局部因子定义相结合,改进了孤立点的去除和吸收算法,提高了聚类的质量,降低了对数据输入顺序的
2、敏感性,增强了对噪声数据处理的稳健性,并在大型数据库聚类、图像压缩和图像分割等方面进一步得到验证。关键词 聚类 BIRCH 算法 CLAP 算法 孤立因子 CLOF 算法基于孤立因子的层次聚类算法与应用3A Clustering Algorithm Based on Outlier-handling Factor and its ApplicationsAbstract In this paper, we propose a new hierarchical clustering algorithm to improve the performance of the BIRCH algorit
3、hm and CLAP algorithm. Based on preprocessing the random samples, we define an outlier-handling factor (OF) relative to cluster feature entry as well as data item. This new algorithm can be used to improve clustering quality and eliminate the sensitivity of input order through the global OF and loca
4、l OF. In final, we investigate applications of the algorithm proposed for dealing with large database, pixel classification and image compression.Keyword Clustering BIRCH CLAP Outlier-handling Factor CLOF目录第一章 引言 6第二章 CLOF 算法系统设计需求分析 82.1 引言 .82.1.1. 编写目的 .82.1.2. 项目背景 .82.1.3. 名词解释 .92.2 任务概述 .92.2
5、.1 目标 .92.3 数据描述 .92.3.1 静态数据 .102.3.2 动态数据 .102.4 功能需求 .102.4.1 流程图 .102.4.2 功能描述 .102.5 性能需求 .112.5.1 时间要求 .122.5.2 适应性 .122.6 运行环境描述 .122.6.1 硬件设备 .122.6.2 支持软件 .12第三章 算法与实现 131 CF 类 .131.1 CF 树的定义 .131.2 CF 类属性 131.3 CF 类成员函数 .132 主函数 .142.1 函数原型 .142.2 参数说明 .142.3 功能说明 .142.4 CLOF 算法描述 .143 输入接
6、口 .153.1 功能说明 .153.2 Input 类成员变量 .153.3 Input 类成员函数 .154 输出接口 .154.1 功能说明 .164.2 Output 类成员变量 16基于孤立因子的层次聚类算法与应用54.3 Output 类成员函数 165 软件界面 .16第四章 实验结果 17比较性实验一: 17比较性实验二: 17应用性实验之一: 18第五章 结论 19致谢语 19参考文献 20基于孤立因子的层次聚类算法与应用6第一章引言本文在分析 BIRCH1算法与 CLAP4算法的优缺点基础上,结合孤立点挖掘算法,提出一种基于孤立点预测的层次聚类算法,并且用 Visual C
7、+实现了 CLOF 算法系统。系统包含了输入/输出、数据预处理、CLOF 算法核心和图像还原预处理四个模块。数据挖掘(Data Mining,DM )就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的、但又是潜在的有用信息和知识的过程。由于数据挖掘是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。其中,最常用的术语是“知识发现”和“数据挖掘” 。相对来讲,数据挖掘主要流行于统计界(最早出现于统计文献中) 、数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。数据挖掘可粗略地理解为三部曲:数据准备(
8、Data Preparation) 、数据挖掘,以及结果的解释评估(Interpretation and Evaluation) 。根据数据挖掘的任务分类有如下几种:分类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。根据数据挖掘的对象分类有如下若干种数据源:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(Legacy)数据库,以及 Web 数据源。根据数据挖掘的方法分类可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细分为:回归分析(多元回归、自回归等) 、
9、判别分析(贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析(系统聚类、动态聚类等) 、探索性分析(主元分析法、相关分析法等) 、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等) 、基于范例的推理 CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP 算法等) 、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或 OLAP 方法,另外还有面向属性的归纳方法。聚类(Clustering )就是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类分析源于许多研究领域,包括数据挖
10、掘,统计学,生物学,以及机器学习。聚类分析是以相似性为基础,把一组个体划分成若干个具有一定意义的子类,即“物以类聚” ,其目的是使得属于同一类别的个体之间尽可能相同,而不同类别上的个体间尽可能相异。聚类分析也称群分析,簇群分析等,是数值分类学的一个分支,并在数据挖掘、图像分割、模式分类及决策制定等众多领域中广泛应用,同时由于不需要任何应用领域知识,因而受到广大数据挖掘研究人员的广泛重视。其中在面向大型数据库方面,目前流行的主要算法有BIRCH1、CURE 6等。BIRCH 算法通过采用多阶段聚类技术,利用计算机有限的主存和辅存资源,尽可能多地去除孤立点,实现对大规模数据库的聚类分析,它具有良好
11、的伸缩性和处理噪音能力,许多数据挖掘研究人员在 BIRCH 算法的基础上提出了改进算法,提高了运行速度和改进了聚类质量,CLAP 4算法就是其中代表之一。数据挖掘的大多数算法主要研究的问题是发现“大模式” ,即输入数据的主要特征;另一方面是研究“小模式”问题即孤立点挖掘,孤立点探测和分析有非常广泛的应用,如欺诈监测、定制市场、医疗分析等领域。 10基于孤立因子的层次聚类算法与应用7在 BIRCH 算法中,孤立点是指在那些密度较低或数量相对少得多的子聚类,它们对整体的聚类模型影响很小,因而在重建 CF 树时,把它们当成孤立点从内存写入硬盘,留出更多的内存空间吸收余下的数据项;而在孤立点挖掘中,孤
12、立点的定义是指那些没有“足够多”邻居的对象,它代表一些特别的意义。 其实两者定义是一致的,都是指在它的某个领域中只有相对少的邻居,另外 BIRCH 算法检测孤立点是为了去除它,而孤立点挖掘则是为了寻找一些有特别意义的数据对象。我们考虑把对孤立点的检测与对孤立点的去除结合在一起,在 BIRCH 算法和 CLAP 算法基础上,提出一个基于孤立因子的层次聚类算法 CLOF(Clustering aLgorithm based on Outlier-handling Factor and random-sampling) 。基于孤立因子的层次聚类算法与应用8第二章 CLOF 算法系统设计需求分析2.1
13、 引言本项目分为三个部分:K-Means 算法实现、CLOF 算法实现及数据库输入输出和图像的处理,由三个人共同完成,其中 CLOF 算法是由本人实现。2.1.1. 编写目的1. 明确程序的编写目的及在整个项目过程中的作用。2. 作为以后工作的重要参考。2.1.2. 项目背景在分析 BIRCH 算法与 CLAP 算法的优缺点基础上,结合孤立点挖掘算法,提出一种基于孤立点预测的层次聚类算法(CLOF) 。BIRCH(Balance Iterative Reducing and Clustering using Hierarchies)算法由四阶段组成:()装载;()有选择地压缩;()全局聚类;(
14、)有选择地提炼。阶段的主要任务是利用计算机可用的主存和辅存空间,通过一次扫描数据库的所有数据,建立起初始的驻留内存的 CF 树;阶段是可选的阶段,决定于阶段 3 采取的全局算法;阶段的主要任务是采用一个全局或局部的聚类算法对 CF 树的子聚类进行聚类。阶段 4 也是可选的,通过数据库的再次扫描,进一步去除孤立点,提高聚类精度。可见 BIRCH 算法是通过采用多阶段聚类技术,利用计算机有限的主存和辅存资源,实现对大规模数据库的聚类分析。在数据量高速增长的今天,大数据集的数据挖掘面临着:解决可用内存量是有限的而数据集是任意大的问题,由于内存增长的速度远小于数据量的增长速度,大部分数据挖掘面临的问题
15、是内存数据集之比非常小。降低 I/O 成本,一方面要解决同样的容量存放更多的内容,另一方面程序执行过程中尽量减少访问次数。BIRCH 算法很好地解决数据挖掘所面临的问题。BIRCH 特别适合大数据集,它将数据集首先以一种很紧凑的压缩格式存放,直接在压缩的数据集上进行聚类而不是在原始的数据集上聚类,它的 I/O 成本与数据集的大小呈线性关系,单遍扫描数据集就可生成较好的聚类,可选的另一遍或多遍扫描用于进一步地改进聚类质量。BIRCH 试图利用可用的资源来生成最好的聚类结果。给定有限的主存,一个重要的考虑是最小的 I/O 时间。BIRCH 采用了一种多阶段聚类技术:数据集合的单遍扫描产生了一个基本
16、的聚类,一遍或多遍的额外扫描可以进一步地改进聚类质量。这个算法的计算复杂性是 O(n),这里的 n 是对象的数目。BIRCH 算法具有对象数目的线性伸缩性,及较好的聚类质量。但是,既然 CF 树的每个节点由于大小限制只能包含有限数目的条目,一个 CF 树节点并不总是对于用户所认为的一个自然聚类。而且,如果簇不是球形的,BIRCH 不能很好地工作,因为它用了半径或直径的概念来控制聚类的边界。BIRCH 算法具有良好的算法伸缩性和处理噪声的能力,但也有下述 3 个缺点:1. BIRCH 算法有一个聚类的预处理过程,需要扫描所有数据来产生一个初始聚类结果。然后,需要再次扫描所有数据,进一步优化初始的
17、聚类结果。对于大规模数基于孤立因子的层次聚类算法与应用9据库,两次扫描所有的数据大大降低了算法效率。2. 簇直径只是定义了一簇点之间的聚类距离,并没有定义叶节点的直径大小。所以,只要叶节点还有空位,就可以容纳新的点,既使新的点会使叶节点直径变得很大,降低了叶节点的紧密度。这样的结果会降低搜索的精度,影响聚类质量。3. BIRCH 算法采用自顶向下的搜索策略,是一种局部搜索算法,它找到的叶节点不一定是最好的。这会导致在数据项输入顺序不好时,产生错误的聚类。CLAP(Clustering Algorithm Based on Random-sampling and Cluster-feature)
18、算法的描述:CLAP 算法即基于随机抽样和聚类特征的聚类算法从 BIRCH 算法出发,针对其局限性,主要在三个方面进行改进:采用高效的随机取样算法 8 ,从数据库中抽取一部分数据进行聚类预处理,避免了预处理时对数据库的全面扫描,节省了运行时间;设立了分叶直径和簇直径一起控制 CF 树的构造,要求插入新的叶节点后分叶的簇直径不超过,否则要求产生新的叶节点来容纳新的数据项,增加了叶节点的紧密度,提高了搜索效率,改进了聚类质量; 在寻找最“ 亲”的叶子结点方面,通过设立全局因子 , 采取全局搜索策略和局部搜索策略相结合,从而降低了数据输入顺序对聚类质量的影响。实验测试结果表明,该算法在聚类速度和聚类
19、质量方面均优于 BIRCH 算法。CLAP 算法的核心是通过定义分叶直径加强同一个叶子结点的子聚类之间的紧密度,从而提高了聚类质量,但在对孤立点(Outlier)的处理上没有作进一步的阐述。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。然而,在一些应用中(如欺骗检测) ,罕见的事件可能比正常出现的那些更有趣。因此孤立点挖掘则是为了寻找一些有特别意义的数据对象。基于以上分析,我们在 BIRCH 算法与 CLAP 算法的基础上,结合孤立点挖掘算法,提出一种基于孤立点预测的层次聚类算法(CLOF) 。2.1.3. 名词解释BIRCH 算法: Balanced Iterative Reducing
20、and Clustering using HierarchiesCLAP 算法: Clustering Algorithm Based on Random-sampling and Cluster-featureCLOF 算法: Clustering Algorithm Based on Outlier-handling Factor and Random-samplingCF 树: Clustering Feature Tree2.2任务概述2.2.1 目标利用大型数据库聚类、图像压缩和图像分割等方法,在分析 BIRCH 算法与 CLAP 算法的优缺点基础上,结合孤立点挖掘算法,提出一种基于
21、孤立点预测的层次聚类算法。 ,改进孤立点的去除和吸收算法,提高了聚类的质量,降低了对数据输入顺序的敏感性,增强了对噪声数据处理的稳健性。2.3 数据描述用以测试的数据有两种:静态数据和动态数据。基于孤立因子的层次聚类算法与应用102.3.1 静态数据美国家庭情况网络调查 Internet 数据库,共有 33832 条记录,每条记录有 29 个属性。公共图像文件 Mandrill.bmp (512*512 像素),分割成 1*2 图块,生成 2 维向量近 13 万条作为原始数据。图 1:Mandrill.bmp(512*512 像素) 图 2:Perpers.bmp(512*512 像素)2.3
22、.2 动态数据聚类结果文档(*.txt):包含聚类数量,输出维数,中心点。初步聚类结果 K 类。产生 Internet 数据库聚类结果。经过算法处理后得到经过聚类处理的图像。2.4功能需求2.4.1 流程图2.4.2 功能描述对最底层的功能所要完成的功能进行详细描述,填入下表中:功能名称 功能标识符 功能详细描述数据输入 01用 DAO 方法访问 ACCESS 数据库读入美国家庭情况网络调查 Internet 数据库构建 CDIB 类读入 Mandrill.bmp 作为数据输入(ACCESS 数据库数据或图像)K-Means算法预处理CLOF算法处理数据输出ACCESS 数据库数据或恢复图像K
23、-Means算法聚类处理基于孤立因子的层次聚类算法与应用11数据处理对象K-Means 算法预处理02通过预处理获得初步聚类结果 K 类、K个聚类中心、平均半径 R、平均直径D、最小半径 R、最小直径 D,提供给CLOF 算法核心模块使用最为重要的 K个输入变量(Kn),CLOF 算法 03CLOF 算法通过采用多阶段聚类技术,利用计算机有限的主存和辅存资源,尽可能多地去除孤立点,实现对大规模数据库的聚类分析CLOF 算法由四阶段组成:()装载;()有选择地压缩;()全局聚类;()有选择地提炼K-Means 算法聚类 04通过处理获得数据集 Xi( i=1,,N;N 是随机选取的数据总量)和聚
24、类结果 K 类,提供给图象还原模块使用数据输出 05用 DAO 方法访问 ACCESS 数据库读出经过聚类后得美国家庭情况网络调查Internet 数据库构建 CDIB 类读出经过处理后得Mandrill.bmp2.4.3 数据与功能的对应关系用一张表说明功能描述中的各个功能与数据描述中的静态数据、动态数据之间的对应关系,例如:功能标识符 输入 输出01 待处理数据对象K 类,K 个中心点,最小半径,最小直径,平均半径,平均直径02 待处理数据对象K 类,K 个中心点,最小半径,最小直径,平均半径,平均直径03 待处理数据对象 分类后的数据对象04 分类后的数据对象 类的中心值05 待处理数据
25、对象新的数据库文件和处理后得没Mandrill.bmp2.5 性能需求对该软件的性能的一些要求。基于孤立因子的层次聚类算法与应用122.5.1 时间要求时间要求相对较低。本程序的主要目的在于用于验证及改进算法,因此对于时间运行不做太高要求。2.5.2 适应性处理数据产生异常时能正常退出数据库。2.6 运行环境描述包括硬件环境和软件环境。2.6.1 硬件设备处理器为 Intel Pentium 4,内存 512M,硬盘为 60G。2.6.2 支持软件Windows 操作系统 Microsoft ACCESSVisual C+ 6.0.PhotoShop 6.0基于孤立因子的层次聚类算法与应用13
26、第三章 算法与实现1 CF 类用以存储 CF 树的属性以及完成 CF 树的各种操作。1.1 CF 树的定义聚类特征树(Clustering Feature Tree)是一个高度平衡树,它存储了层次聚类的聚类特征。树中的非叶子结点有后代或“孩子” ,它们存储了其孩子的 CF 的总和;叶子结点储存了所有的子聚类;它有两个参数:分支因子 B(或 L)和阈值 T。其中分支因子表示每个非叶子节点孩子的最大数目;分支因子表示每个叶子节点最多有个 CF 项;阈值表示存储在树的叶子结点中的子聚类的最大直径。1.2 CF 类属性变量声明 说明Int noc 该子树的直接孩子数目Int n 子树中的所有数据的个数
27、Double *ls存放向量,当向量维数 dim 确定后执行ls=new doubledim,以满足 dim 不可预知的情况Double ss 向量的 N 个数据点的平方和Cf *child 指向孩子的指针1.3 CF 类成员函数函数原型 说明Double distance(cf *p) 计算结点 *this 和 *p 之间的距离Double diameter() 计算*this 子树的直径Void insert(cf *p,bool candiv=true)从根结点开始,自下而直地遍历采用欧式距离寻找最近的子聚类,找到后,首先检查它是否能吸收这个 *p,吸收后,结点必须满足(1)孩子数 no
28、c不能超过(2) 最大直径不超过阈值,如果不能吸收,则必须分解该叶子结点,调用分裂函数divide();当不允许分解的时候( candiv=false)会引起分解的数据将被丢弃Void divide(cf *old,cf *ip)分裂函数,*old:将要被分裂的子树,*ip :引起分裂的结点,首先选取两个距离最远的一对数据点作为初始种子点(Seed),把剩下的数据点根据与Seed 最近的原则进行归并基于孤立因子的层次聚类算法与应用14void rebuild()重建 CF 树,将数据量稀疏且不在聚类中心附近的叶子结点,作为孤立点,按照和聚类中心间的距离换算为0,N 的整数作为权写入到临时的表队
29、列中。(离中心最近的一批孤立点写入表 0 中,最远的写入表 N 中,回收“孤立点” 的时候优先回收表 0,表 1 次之最后回收表 N 中的数据)2 主函数2.1 函数原型CString mainp(int pagesize,input *ids,output *ods)2.2 参数说明pagesize 为页面的大小,*ids 和 *ods 是初始化过的输入 /出类。2.3 功能说明CLOF 算法的具体实现负责初始化一个空的 CF 树,调用预处理模块用 K-Means 算法(此部份是由刘裴寰完成)以估计全局的特征、以使聚类过程有一定的全局的方向性而且结果更为精确,然后通过 ids 逐个读取数据并
30、且插入到 CF 树中,必要时(如内存不足)进行重建、回收孤立点,在插入数据达到一定数量时(程序中设定为所有数据的 50%、70%、90%)再度调用 K-Means 算法修正前次估计的参数,最后通过链表输出最终数据到 ods 中。2.4 CLOF 算法描述CLOF 是对 BIRCH 算法的改进,主要体现在 CF 树重建时对孤立点的处理算法上,因此主要给出改进的 CF 树重建算法(如图 1)1. 随机抽样 N 个数据,用全局聚类算法进行预处理,获得聚类数、聚类中心、半径、直径等初步聚类结果;2. 不断地把数据项插入 CF 树,具体插入算法见,直到 CF 树重建,如果数据已全部插入,则转 8;3.
31、计算每个子聚类 CFi的全局孤立因子 ,i然后检查输入的数据量是否超过全局因子 Gi ,若不超过则转 5;4. 对 CF 树所有子聚类的数据进行聚类,求局部孤立因子 ,修正 CFi的全局孤立因子 ;i i5. 计算满足两个条件的子聚类所含的数据个数:子聚类所含数据相对少得多基于孤立因子的层次聚类算法与应用15(低于平均值) 、孤立因子 ;i06. 如果去除的孤立点个数太少(低于 5%) ,则降低 ,转 5;如果去除的孤立0点个数太多(高于 50%) ,则提高 ,转 5;7. 把去除的孤立点在硬盘中按其孤立因子的大小分别放入相应的回收站,如果磁盘空间没有溢出则转 2,继续插入剩下的数据。8. 按
32、孤立因子从小到大次序依次吸收回收站的孤立点,直至 CF 树饱和为止;9. 转入 BIRCH 算法的阶段二;3 输入接口虚类:Input3.1 功能说明定义一些基本的函数,以便使中心算法不必考虑输入的数据是来自数据库、图像或者其他的数据源,都将被输入模块处理成同一种规格的数据。其派生类的具体实现(如读取数据库、读取图像)由张涛同学完成。3.2 Input 类成员变量变量声明 说明Int dim 数据的维数Int count 数据的个数3.3 Input 类成员函数函数原型 说明virtual bool getData(double *data, int k)虚函数,由其派生类具体实现:读取第 k
33、 个数据,放入 data 所指的位置内,当不存在第 k 个数据的时候,返回 falseint getCount() 数据的个数int getDim() 数据的维数4 输出接口4.1 功能说明和输入类似,是为了实现和中心算法的脱离。其派生类的具体实现(输出到数据库、恢复图像)由张涛同学负责。基于孤立因子的层次聚类算法与应用164.2 Output 类成员变量: int dim4.3 Output 类成员函数: writeData(double *data)5 软件界面界面大致分为 4 个部份:数据来源设置(左上) 、输出数据设置(右上) 、CLOF 及 K-Means 参数设置(左下) 、信息框
34、(右下)图 3:处理数据库图 4:图像处理中基于孤立因子的层次聚类算法与应用17第四章实验结果CLOF 算法实现的软件环境:Windows 操作系统,Microsoft Visual C+6.0,Microsoft ACCESS 数据库;算法实现的硬件环境:处理器为 Intel Pentium 4,内存 512M,硬盘为60G。对算法的参数设置如下:全局因子 G 取50, 70,90 ,阈值 =1,预处理抽样率为010%;全局聚类算法采用 K-Means 算法,初始化方法采用 Greedy 算法,由有效性指标 Vwsj 9来确定最佳聚类数。试验在经典大型数据库测试、图像分割和图像压缩三方面进行
35、,并分为两大类:一类为比较性实验,一类为应用性实验。比较性实验一:数据集为公共图像文件 Mandrill (512*512 像素,见图 1),分割成 1*2 图块,生成 2 维向量近 13 万条作为原始数据,并生成 XY 散点分布图。实验结果如下:K 2 3 4 5 6 7 8改进前 Vwsj 0.1566 0.0419 0.0411 0.0274 0.0206 0.9890 0.9189CLOF 算法Vwsj0.1615 0.0376 0.0222 0.0177 0.0356 0.6682 0.7619表 1 比较性实验一有效性指标对照表从上表中可以看出改进前最佳聚类为 6,CLOF 算法最
36、佳聚类为 5;图 5:左为改进前的分布图,右为 CLOF 算法的分布图左边图中为改进前 CF 树最终包含数据的 XY 散点分布图,右边为 CLOF 算法的 XY 散点分布图,其分布明显比左边密集。显然从图和表直观表明 CLOF 算法对孤立点具有较强的处理能力。比较性实验二:数据为家庭网络使用情况调查数据库 Internet,由厦门大学数据挖掘实验室提供,共有33832 条记录,每条记录有 29 个属性。实验结果如下(表 2),改进前、后的最佳聚类数都为4,但比较其有效性指标,前者优于后者,改进前 Vwsj=0.2739, 改进后 CLOF 算法基于孤立因子的层次聚类算法与应用18Vwsj=0.
37、1506.K 2 3 4 5 6 7 8改进前 Vwsj 0.5357 0.3351 0.2739 0.9090 0.8355 0.9839 1.0533CLOF 算法Vwsj0.4951 0.3756 0.1506 0.4493 0.4808 0.4889 1.1195表 2 比较性实验二有效性指标对照表应用性实验之一:数据集为公共的图像文件 Perpers (512*512 像素) ,对图像像素进行分类,结果如下原始图像 聚类结果 K=2 时图像分割结果 K=3 时 图像分割结果图 6:对 Perpers.bmp 的处理结果其中最佳聚类数为 K=3,图像像素分为蔬果的亮面,暗面和背景(含深
38、色的蔬果),当指定 K=2 时,图像像素分为蔬果亮面和暗面。数据集为公共的图像文件 Mandrill.bmp (512*512 像素),并分割成 4*4 图像块,生成 16维向量组生成原始聚类数据,进行图像压缩实验,分别指定最多颜色数为 64、128,相应聚类数为 K=4、K=8。原始图像 K= 4 时压缩图像 K=8 压缩图像图 7:对 Mandrill.bmp 的处理结果基于孤立因子的层次聚类算法与应用19第五章结论数据挖掘作为一个只有十几年研究历史的较新研究领域,一直吸引了无数数据挖掘人员的注意力,尤其在大型数据库的数据挖掘方面显得更具有挑战性。本次实验实现并测试了针对孤立点的处理方法上
39、基于孤立因子的聚类算法 CLOF。测试表明,该算法在对孤立点的处理上具有更强的稳健性和具有更高的聚类质量,只是尽管算法中采取了局部因子和全局因子相结合动态修正孤立因子,但初始抽样和初始聚类的随机性仍对最终聚类结果有一定的影响,因此如何定义孤立因子,提高孤立因子预测的准确性尚需进一步研究。本次毕业设计,作为本科四年的学习生涯的最后一次作业,我和两位同学合作开发了一个有意义的软件项目。在开发的过程中才发现,以前对数据结构和算法的理解过于肤浅,对其的应用尤其是树的应用了解太少。在合作的过程中,虽然有出现不够协调的情况,但最终还是解决了难题,深深体会到团队合作精神的重要性。这次的毕业设计让我学到了不少
40、关于数据挖掘方面的基础知识,同时也发现了自己的不足之处,确定了今后一段时间内的学习目标。致谢语在本次毕业设计过程中,要特别感谢教授给予我的关心和指导。同时也要感谢老师给予我的辅导。感谢同课题组的刘裴寰、张涛同学给予我的帮助。无论是从知识上,还是从其它各个方面,都是有了他们,才有了我这次毕业设计的顺利完成。在此,要深深的感谢他们!基于孤立因子的层次聚类算法与应用20参考文献1 Zhang T, Ramakrishnan R, Livny M, BIRCH: an efficient data clustering method for every large databasesA.The ACM
41、 SIGMOD Conference on Management of Data,Montreal,Canada,1996.2 Zhang T, Data Clustering for Very Large Datasets plus applications, Dissertation, Computer Sciences Dept. at Univ. of Wisconsin-Madison,1996.3 Zhang T, Ramakrishnan R, Livny M, BIRCH: A New Data Clustering Algorithm and Its Applications
42、. Kluwer Academic Publishers, Boston, Manufactured in The Netherlands.4 Zhou Bing,Sheng Junyi,Peng Qinke ,Clustering Algorithm Based on Random-sampling and Cluster-Feature Journal of XIan JiaoTong University,Vol.37 No.12 Dec. 2003.5 Jiawei Han, Micheline Kamber, Data Mining Concepts and Techniques,M
43、organ Kaufmann Publishers.6 S. Guha, R. Rastogi, and K. Shim. CURE: An efficient clustering algorithm for large databases. In SIGMOD98, Seattle, Washington, June 1998.7 R. Ng and J. Han. Efficient and effective clustering method for spatial data mining. In VLDB94, Santiago, Chile, Sept. 1994.8 Vitte
44、r J,Random Sampling with reservoir J,ACM Trans on Mathematical Software,1985 ,11(1).9 Sun.H,S.Wang, and Q.Jiang, A New Validation Index for Determining the Number of Clusters in a Data Set,IJCNN01, Washington DC .July 14-19,2001.10 邵峰晶,于忠清, 数据挖掘原理与算法,中国水利水电出版社,200311 Jiawei Han, Micheline Kamber 著, 范明, 孟小峰等译. 数据挖掘概念与技术(Data Mining Concepts and Techniques) . 机械工业出版社,200312 徐晓刚,高兆华,王秀娟,Visual C+6.0 入门与提高,清华大学出版社