收藏 分享(赏)

基于数据流双层结构聚类挖掘的研究.doc

上传人:weiwoduzun 文档编号:1894510 上传时间:2018-08-29 格式:DOC 页数:54 大小:872KB
下载 相关 举报
基于数据流双层结构聚类挖掘的研究.doc_第1页
第1页 / 共54页
基于数据流双层结构聚类挖掘的研究.doc_第2页
第2页 / 共54页
基于数据流双层结构聚类挖掘的研究.doc_第3页
第3页 / 共54页
基于数据流双层结构聚类挖掘的研究.doc_第4页
第4页 / 共54页
基于数据流双层结构聚类挖掘的研究.doc_第5页
第5页 / 共54页
点击查看更多>>
资源描述

1、华北电力大学(保定)硕士学位论文基于数据流双层结构聚类挖掘的研究姓名:楚红涛申请学位级别:硕士专业:计算机应用研究指导教师:寒枫20071218华北电力大学硕士学位论文摘要摘要随着计算机技术的发展,越来越多的应用产生流数据,流数据不同于传统的静态数据,它是 连续的、有序的、快速变化的、海量的数据。本文的主要工作是设计和实现了双层结构流数据聚类算法,它包括两部分:在线层聚类和离线层聚类。为了有效地存 储保留数据流中数据点的摘要信息,本文在框架中引入了微簇和金字塔时间框架。数据点的摘要信息以微簇的形式保留,并按照金字塔时间框架存储。该算法可以有效的检测数据流中的异常点。通过相关的仿真实验和其它的算

2、法对比,显 示了算法的高效性和先进性。最后对本文的内容进行了总结,并对以后的工作 进行了展望。关键词:流数据,聚类挖掘,异常点检测,双层结构,“,锄五“、 触册;撇锄巧,粕():,华北电力大学硕士学位论文摘要摘要随着计算机技术的发展,越来越多的应用产生流数据,流数据不同于传统的静态数据,它是 连续的、有序的、快速变化的、海量的数据。本文的主要工作是设计和实现了双层结构流数据聚类算法,它包括两部分:在线层聚类和离线层聚类。为了有效地存 储保留数据流中数据点的摘要信息,本文在框架中引入了微簇和金字塔时间框架。数据点的摘要信息以微簇的形式保留,并按照金字塔时间框架存储。该算法可以有效的检测数据流中的

3、异常点。通过相关的仿真实验和其它的算法对比,显 示了算法的高效性和先进性。最后对本文的内容进行了总结,并对以后的工作 进行了展望。关键词:流数据,聚类挖掘,异常点检测,双层结构,“,锄五、触;锄锄巧,粕():,声明户忉本人郑重声明:此处所提交的硕士学位论文基于数据流双层结构聚类挖掘的研究,是本人在 华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明

4、并表示了谢意。学位论文作者签名:垄丝壹日期:鲨量:!关于学位论文使用授权的说明本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。(涉密的学位论文在解密后遵守此规定)作者签名:日期:丛:!旦导师签名:华北电力大学硕士学位论文课题研究背景第一章引言数据挖掘()是近年来随着数据库和人工智能发展起来的一门新兴数据库技术。其目的是从大量的

5、、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据 库、模式识别、粗糙集、模糊数学等相关技术。聚类分析是一种“物以类聚”的方法,是按照属性值把一组对象划分成一系列有意义子集的描述性任务。聚类就是将一组数据分组:满足最大的组内相似性和最小的组间相似性,不同聚类中的数据尽可能的不同,而同一聚类中的数据尽可能的相似。目前,聚类分析已 经成为数据挖掘领域的主要课题之一。它已经作为一种基本的数据挖掘方法广泛的应用于相似搜索、顾客划分、模式识别、趋势分析等领域中。另外,聚类算法

6、在金融投 资、地理信息系 统、 卫星图像和信息检索等领域也有广泛的应用。随着计算机科学的飞速发展,许多技术领域都需要处理源源不断的、规模庞大的流数据,如信用卡欺诈检测、网 络入侵检测、 电话数据挖掘、股票分析等。例如,一天之中有亿销售记录,处理亿个查询,产生亿通话记录【。在我国随着网 络技术的发展, 银行、通信、税 务等部门和企业,在监督管理和经营过程中也产生了大量的数据。一个监测超市交易数据库的分析者可能会更关心自从超市推出某项优惠政策后,销售利润较高的是哪一类商品,由此制定出下一步的销售策略,而不仅仅是只关注销售利润一直较好的商品;一个股票分析者会更关心价格变动浮动较大的股票,以此来指导下

7、一步的股票买卖策略;产品检测中,合格 类的数目发生较大幅度的下降, 说明可能是哪一样技术或机器发生故障和问题,使用者 应及时作相应的调整。流数据最大的特点是:待处理的数据不再被静态、固定地存 储在可多次、随机访问地介质中,而是以一种动态、流式的形式出现。访问数据的方法被限定为进行顺序的、一次或有限次的访问。因此,数据流可以被定义为实时的, 连续的并且有序的数据记录序列【。流数据挖掘成为当前数据挖掘的一个热点问题,由于流数据本身的动态性、规模巨大的特点,使得传统的数据挖掘算法不适应或不能直接应用于流数据的挖掘。数据流的特征分析华北电力大学硕士学位论文对于数据流,可以从狭义和广义两个方面进行理解。

8、狭义的数据流是指更新变化较快,且数量无限增长的数据集合。路由器所处理的数据包,传感器网 络的数据都是这种数据流数据的典型代表。这些数据被源源不断的产生,将全部数据进行存储是不可能,并且 对这样的数据进行存储也不是必要的。因为这样的数据带有明显的时效性。广义的数据流是针对只能进行线性扫描的操作的超大规模的数据集合而言的。客户点击流, 电话记录,网页的集合,金融交易以及科学观测数据等都是这样的数据集合。将这些超大 规模的数据集合中的所有数据存放在主存中进行运算是不可行的,一般来讲,这 些数据只能放在外存中。在 这种情况下,只有 线性扫描是唯一有效的存取方法,而对 数据的随机存取是相当昂贵的。此时,

9、处理广义数据时所受到的限制与处理狭义的数据流数据基本是一致的。因此,两者都可以被认为是数据流的一种存在形式卜。通过说明,可以看出数据流具有和传统数据库模式下的数据集合不同的特征:首先,数据流中的数据可以看作是随着时间的推进而连续不断产生的,其总量潜在无限。其次,数据流中的数据是动态变化的。再有就是数据流的数据的到达次序是不可控制的。鉴 于数据流数据的这些特征,与 传统的聚类算法相比,数据流聚类算法应当具有以下特征:首先,使用有限的内存和存储空间。其次,线性扫描或一遍扫描。再次,对数据 记录的处理具有时效性【巧 】。另外流数据聚类算法还应具有其它的一些特性:对数据输入顺序的不敏感性,对任意形状的

10、适应性,对数据聚类的跟踪能力。国内外研究动态随着数据流的研究得到学术界和产业界越来越多的关注,出现了一些初具规模原型,具有代表性的三个系统:美国大学和联合设计的系统,美国斯坦福大学的系统,美国大学的系统。国外在数据流挖掘方面比较有影响的:大学教授领导的研究小组,研究侧重于数据流管理、数据流的 连续查询和数据流的聚类方面,提出了()即数据流管理系统概念;另外一组是由和领导的研究小组,侧重于数据流分析方面,对于数据流的在线分析,分别从分 类,聚 类 ,频繁集挖掘等多方面做了大量的研究工作。指出数据流主要包括,三种类型,其一般性逐渐增大。型数据流相对比较简单,聚类可以分为子序列聚类()和整体聚类()

11、。如基于的算法,基于小波的算法,基于层次的算法等。近年来,基于型数据流也有一些算法,等提出华北电力大学硕士学位论文算法,该算法基于分而治之的思想使用一个不断迭代过程实现以有限空间对数据流进行聚类。等在基础上又提出了算法,并使用证明的聚类效果更好。等提出了一个聚类演化的数据流框架【】。在这个框架中,将数据流的聚类分成在线微聚类和离线宏聚类两个阶段,实现近期数据的聚类和用户指定时间段的聚类。以上几种流数据聚类方法都使用 聚类思想,对非凸形状聚类效果不好,同时无法对高维数据进行聚类。孙焕良等提出的算法瞵使用基于空 间划分的聚类方法对流数据进行聚类,对非凸形状效果较好,但由于是在整个空间进行聚类,同样

12、无法 处理高维数据流聚类问题。等在文中提出算法,采用投影技术解决数据流的高维聚类问题,但要求用户输入平均聚类维数,在实际应用中往往比较困难,同时也没有解决对非凸形状聚类的问题。本文组织结构本文首先从基本概念出发,然后逐层深入的论述数据流聚类问题以及相关的技术,全文由五章组成。第一章介绍了流数据聚类的研究背景、数据流的特征分析、国内外研究现状。第二章介绍了数据流聚类算法的基本概念与基础知识,分析并评估了传统的与最新的数据流聚类算法。第三章详细介绍了双层结构的数据流聚类算法()。第四章主要是将算法通过仿真实验与其它算法进行对比分析。第五章对全文进行了总结,并提出了进一步研究的方向及工作。华北电力大

13、学硕士学位论文数据挖掘概述第二章流数据聚类算法综述计算机技术和通信技术的迅猛发展将我们带入了信息时代。随着数据库技术的成熟和数据应用的普及,人类积累的数据量急剧增大。我们不仅拥有庞大的数据量,而且数据类型越来越复杂、结构越来越多样。 为了提高数据信息的利用率,基于数据库的知识发现(,简称)及其核心技术一数据挖掘(,简称)便 应运而生了。数据挖掘的基本概念是从数据库中发现有用知识的整个过程,数据挖掘是过程中的一个特定步骤。现在关于比较公认的一个定义是:所谓基于数据库的知识发现是从大量数据中提取有效的、新颖的、潜在有用的和最终可理解的模式的非平凡过程。数据挖掘算法的好坏直接影响到发现知识的好坏。在

14、实际应用中,人们往往不严格区分数据挖掘和数据库中知识发现】。一般在科研领域中称为,而在工程领域则称为数据挖掘。数据挖掘的基本功能数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务以简洁概要的方式描述数据,并提供数据有趣的一般性特征;预测性挖掘任务是对当前的数据进行一定的分析,建立模型进而预测新数据模型的行为。现将数据挖掘功能介绍如下。()类概念描述数据可以和类或概念相关联,用汇总的、 简洁的、精确的方式描述每个类或概念可能是有用的。这种描述称为类概念描述()。这种描述有两种一般方法:)数据特征化()数据特征化是目标类()数据一般特征和特性的汇总。)数据区分()数据区分是将目标类对象的一般

15、特性与一个或多个对比类()对象的一般特性比较。数据特征的输出可以有多种形式:饼图、条图、曲线、多维数据立方体等;数据区分的输出形式类似于特征描述的输出,但区分描述应当包括比较度量。()关联分析华北电力大学硕士学位论文关联分析()用来发现关联规则,关联规则是形如,即“ 以马人峨的规则,其中彳,(,聊),曰, ,)是属性一值对。关联规则解释为“满足中条件的数据库元组也满足中的条件。某一特定关联在数据库中出现的概率称为支持度,要计算包含某个特定项或几个特定项的事务在数据库中出现的概率只要在数据库中直接统计就可得到。在发生的情况下,发生的条件概率在数据挖掘中称为可信度,计算的方法是求百分比:(与同时发

16、生的概率)(发生的概率)。()分类与回归预言模型以通过数据库的某些数据得到另外的数据为目标。如果预测的变量是离散的,这类问题 就称为分类():如果 预测的变量是连续的,这类问题就称为回归()。分类要解决的问题是为个事件或对象归类。在使用上,既可以用此模型分析已有的数据,也可以用它来预测未来的数据。分类算法的工作方法是通过分析已知分类信息的历史数据总结出一个预测模型。这里用于建立模型的数据称为训练集,通常是已知掌握的历史数据,也可以是通过实验得到的数据。回归是通过具有已知值的变量来预测其它变量的值。在最简单的情况下,回归采用的是像线性回归这样的标准统计技术。但在大多数实际应用中的问题很难找到简单

17、有效的方法来预测,如商品的销售量、股票的价格、产品合格率等。因 为要描述这些事件的变化所需的变量很多,而且这些变量本身往往都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神 经网络等。一般同一个模型既可以用于回归也可以用于分类。如决策树和神经网络算法既可以用于建立分类树,也可以建立回归树。()聚类分析近几年来,聚类()作为数据挖掘的主要方法之一,越来越引起人们的关注。所谓 聚类,就是把大量的维数据对象(个)聚集成个聚类()。使同一聚类内对象的相似性尽可能最大,不同聚类的对象之间的相似性尽可能小。也就是说,形成聚 类以后,同一聚类中的对象有较高的相似形而不同聚类

18、中的对象有相当大的差异。聚类与分类的差别使分类算法分析的是类别已知的数据集,而聚类算法分析的是类别未知的数据集。聚类的输入是一组未分类的记录,而且事先也不知道要分成几类,通过分析数据,根据定的分类规则,合理划分 记录集合,从而确定每个 记录所属的类别。在不同的聚类方法中,用于描述相似性的函数也不相同,有的采用欧氏距离或马氏距离,有的采用向量夹角的余弦,也有的采用其它的方法。当预先不知道类型的数目,华北电力大学硕士学位论文或者用参数估计和非参数估计很难确定不同类型的类的概率密度函数时,就需要使用聚类分析。有些聚类分析算法可以自动的确定聚类的数目,如何在聚类过程中自动的确定是聚类分析的一个重要问题

19、。采用不同的聚类方法,同一聚类集合可能有不同的划分结果。聚类的结果跟特征选取也有很大的关系。例如,对人进行聚类,可以根据身高聚 类,可以根据肤色,可以根据年龄,也可以根据爱好分类。因此, 选取不同的特征,就会 产生不同的结果。现有的聚 类方法大概有:划分方法, 层次方法,基于密度的方法,基于模型的方法。()序列分析与时序分析序列分析和时序分析是用来说明数据中序列信息和时间相关的序列的分析。序列数据库是指由有序事件序列组成的数据库,它可以有时间标记也可以没有时间标记。例如,页面遍历 序列就是一种序列数据。时序数据库是指随时间变化的序列值或事件组成的数据库,序列值通常是在等时间间隔测得的数据。时序

20、数据库的应用也很广泛,例如,股票的每日波动,化学实验中按等时间间隔测得的反应物的状态数据,气象 观测中的风速数据等等。关于序列数据库和时序数据库的挖掘,主要包括趋势分析,相似性搜索,与时间有关数据的序列模式挖掘和周期模式挖掘等。趋势分析一般包括对以下四种主要的变化或成分的分析:长期或趋势变动()、循环变动或循环变化()、季 节性变动或季节性变化()和菲规则随机 变动()。通过对他们的系统分析,人 们可以在较合理的情况下制定出长期或短期的预测。()异常点分析数据库中可能包含这样一些对象,它们与数据一般行为或模型不一致,这些数据对象称为异常点(或孤立点)。大部分的数据挖掘方法会将异常点视为噪声或异

21、常而清除。然而,在一些应 用中,异常的事件可能会比正常的事件更有意义。异常点的探测和分析称为异常点挖掘()。对于给定的个数据对象集合的异常点挖掘,是指发现与其余数据相比有显著差异、异常或不一致的前个对象。异常点挖掘方法大致可分为三类:统计学方法,基于距离的方法,基于偏移的方法。统计学方法假定数据服从一定的概率分布或概率模型,然后根据模型采用不一致检验来识别异常点。不一致性检验需要数据集参数(假定的数据分布)、分布参数以及期望得到的异常点数目。由于统计学方法需要数据集合参数,但这些参数可能华北电力大学硕士学位论文是未知的朝。在基于距离的异常点检测中,将异常点看作是那些没有足够数量邻居的对象。基于

22、偏离的异常点检测将异常点定义为与给定的描述偏离的对象,通过检测一组对象的主要特征来确定异常点。数据挖掘实际应用数据挖掘的工具和软件已经在各个行业得到很好的应用,并收到明显的效益,其中主要的有:()金融方面()客户关系管理方面()零售业市场营销方面()医疗方面()过程控制质量监督保障方面()远程通信部门()化学制药行业()遥感器领域()税收方面()军事方面聚类分析概述聚类分析是数据挖掘的一项重要任务。聚类()是数据挖掘领域最为常见的技术之一,用于 发现在数据库中未知的对象类。这种对象类划分的依据是“物以类聚”,即考察个体或数据对象问的相似性,将满足相似性条件的个体或数据对象划分在组内,不 满足相

23、似性条件的个体或数据对象划分在不同的组中。通过聚类过程形成的每一个组称为一个类()。在数据挖掘之前,对象类划分的数量与类型均是未知的,因此在数据挖掘后一般需要对数据挖掘结果进行合理的分析与解释。 聚类是现实世界中普遍存在的现象,其应用也非常的广泛。据文献记载,在破产预测、手写体字符的计算机识别、交通管理与塞车状况预测等方面都有过成功的应用。另外,在数据库知 识发现的数据准备阶段也常采用聚类的方法除去异常值的影响。在世纪年代,对聚类分析已经有着比较深入的研究。聚类的方法主要有统计学方法和机器学习的方法。在统计学中,聚类一般称为聚类分析(),主要研究基于几何距离的聚类。在使用上,首先要定义多维空间

24、和距离,以距离作为相似性的判别标准。在机器学 习中,聚类称为无监督学习(),主要体现在聚类学习的例子或数据对象没有类别标记,需华北电力大学硕士学位论文要有聚类学习算法自动计算。近年左右,随着数据库知识发现技术的兴起,对聚类的研究掀起了新的热潮。除了统计学和人工智能领域的研究人员以外,数据库领域的人员也加入到这一研究队伍中,并取得了可喜得成果。从数据库知识发现的角度来讲,对 聚类问题的研究是要从大量的数据集中智能的、自动的抽取出有价值的聚类知识。总体而言,多数聚类算法主要可以归为划分聚类方法()、层次聚类方法()、基于密度的聚类方法()和基于网格的聚类方法【。()划分聚类方法是一种基于原型的聚类

25、方法,例如首先从数据集中随机的选择几个对象作为聚类的原型,然后将其它对象分配到由原型所代表的最相似,也就是距离最近的类中。 对于划分聚类方法,一般需要一个迭代控制策略,对原型不断的 进行调整,从而使得整个聚类得到优化,例如使得各个对象到其原型的平均距离达到最小。()层次聚类方法是采用“自顶向下或“自底向上的方法在不同的层次上对对象进行分组,形成一种树性的聚类结果。如果采用“自顶向下的方法,则称为分解型 层次聚类法();如果采用“自底向上的方法,则称为聚结型层次聚类法()。()基于密度的聚类方法是以局部数据特征作为聚类的判断标准。类被看作是一个数据区域,在该区域内对象是密集的, 对象稀疏的区域将

26、各个类分隔开来。多数基于密度的聚类方法形成的聚类形状可以是任意的,并且一个类中对象的分布也可以是任意的。()基于网格的聚类方法是将聚类空间化为有限数目的单元,由这些单元形成网格结果,所有的聚类操作皆在网格上进行。基于网格的聚类方法处理时间独立于数据对象的数目,而依赖于每一个维上的单元数目,因此处理速度比较快,但有 时聚类的质量会受到影响。差异度的计算聚类分析中,判断对象之间是否相似,是通 过计算对象之间的差异度来完成的。在描述对象的属性取值不同时,差异度的计算方法也不相同。()区间变量区间变量是一种连续变量,一般取值为线性度量值,例如高度、长度、 宽度、重量等都是区间变量。假设有个对象,描述第

27、个对象的个属性值分别对应于区间变量值,彩,拥,那么对象与之 间的差异度一般以它们之间的距华北电力大学硕士学位论文离(,)来表示。距离越近,表明对象与之间越相似,差异越小;距离越远,表明对象与之间越不相似,差异越大。距离(,歹)的计算有如下种方法:)欧几里德距离()(,)一 胁一加(一), ,胛;, ,疗)绝对值距离()(,)爿 一,椭一,刖(),刀;, ,以)明考斯基距离()(,)(一,一拥一工朋),(),聆);, ,即欧几里德距离和绝对值距离都是明考斯基距离的特殊形式。在时,明考斯基距离为绝对值距离;在时,明考斯基距离为欧几里德距离。()二态变量二态变量指只能有两种取值的变量,一般用来表示其

28、中的一种取 值,用来表示另外一种取值。二 态变量是一种比较常见的描述对象属性的变量。假设有个对象,描述每个对象的个属性 值皆为二态变量,那么计算对象与(主,以)之间的差异度需要通过两步完成:进行二态变量取值的统计。根据统计结果进行差异度的计算。(,)与取值不同的属性个数属性总数()分类变量分类变量是指具有个或者个以上取值的变量。分类变量的应用也比较广泛,例如:产品大类的划分、企业所属的行业、人的种族、地理区域等,都可以采用分类变量来进行描述。假设有个对 象,描述第个对象的个属性值分 别对应于分类变量值为,拥,描述第个对象的个属性值分别对应于分类变量值, ,加,那么对象与之间的差异度(,)可以这

29、样计算:(,歹)(一口)跏华北电力大学硕士学位论文为描述每个对象的属性个数, 为对象与对象取值相同的属性个数。()序数变量序数变量可以为离散变量,也可以为连续变量。如果为离散变量,那么序数变量一般是分类的,但是各个类之间存在着严格的顺序关系,例如高等院校职称中的教授、副教授、讲师和助教等等。如果是连续变量,那么具体的 变量值往往并不是最重要的,人们更关心的是按照一定规则进行排序而形成的等级,例如体育比赛中的金牌、银牌和 铜牌。假设有个 对象,描述每个对象的个属性值皆为序数变量值,则对象之 间差异度的计算通过三个步骤完成:确定各个对象每个属性序数变量值的等级。根据所确定的等级值进行标准化。根据标

30、准化后的等级值,采用适用于区间变量的方法进行差异度的计算口。传统聚类方法介绍()划分聚类方法划分聚类方法是一种基于原型()的聚 类方法,其本质是首先从数据集中随机地选择几个对象作为聚类的原型,然后将其它对象分别分配到由原型所代表的最相似,也就是距离最近的类中。划分聚类方法通过迭代控制策略对原型不断地进行调整,从而使得整个聚类得到优化。根据所采用的原型地不同,划分方法主要包括和两大类算法。算法的思路:假设有个对象需要分成类,首先随机的选择个 对 象代表个 类,每一个对象作为一个类的原型,根据距离原型最近的原则将其它对象分配到各个类中。在完成首次对象的分配之后,以每一个类所有对象的平均值作为该类型

31、的原型,迭代进行对象的再分配,直到没有变化为止,从而得到最终的个类。 算法的思路:首先选择作为各个类的原型,再根据距离原型最近的原则将其它对象分配到各个类中。比较著名的 算法有()算法、()算法和()算法。在聚类形状为凸形、大小和密度相似,并且聚类数目可以合理估计的情况下,基于划分的聚类方法还是比较有效的。()层次聚类方法层次聚类方法是发展较早、应用比较广泛的一大类聚类分析方法。层次聚类方法()是采用“自顶向下()或“自底向上()”的方法在不同 层次上对对 象进行分组,形成一种 树形的聚类结构。华北电力大学硕士学位论文如果采用“自顶向下的方法,则称为分解型层次聚类法();如果采用“自底向上的方

32、法,则称为凝结型层次聚类法()。层次聚类方法是按照一定的相似性判断标准,合并最相似的部分,或者分割最不相似的两个部分。比较传统的层次聚类算法有()和()算法,分别为凝结型层次聚类算法和分解型层次聚类算法。一些新的层次聚类方法,般采用的是凝结型层次聚类策略,如()算法、()算法、算法和踟算法。()基于模型的聚类方法基于模型的方法是给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。常用的模型有基于统计的方法和基于神经网络的方法。法是一个通用且简单的基于统计的聚类方法,它用分类树的形式来表现层次聚类,并用一中启发式的评估衡量标准()来引导树的建立。其他常用的基于统计的方法还有,。大

33、多数基于统计的方法的局限性在于它们假设每个属性上的概率分别相互独立,而实际上这个假设并不是总是成立。另外, 对数据簇的更新与存储代价较高,使得这些方法不太适用于对大型数据库的处理。基于神经网络的方法中具有典型性的方法是竞争学习方法。此方法由等人提出,采用了若干个单元的层次(神经元),以一种”胜者全取”的方式对系统当前处理的对象进行竞争。学习矢量量化(,)是由提出的一种自适应数据聚类方法,它基于对具有期望类别信息数据的训练。虽然是一个有监督的训练方法,但是采用了无监督数据聚类技术对数据集进行预处理,可获得聚类中心。在改进算法中,提出在特定的条件下更新获胜单元和第二单元(下一个最接近的向量),以便

34、更有效的利用训练数据。另外,还提出了自组织特征映射(一,)方法。具有诸如拓扑结构保持、概率分布保持、无导师监督学习及可视化等特征被广泛应用于聚类分析之中。但是神经网络聚类方法具有较长的处理时间和数据的复杂性,不太适用于处理大型数据库乜钔。()基于密度的聚类方法基于密度的聚类方法()是以局部数据特征作为聚类的判断标准, 类被看作是一个数据区域,在该区域内是密集的,对象稀疏的区域将各个类分隔开来。多数基于密度的聚类算法形成的聚类形状可以是任意的,并且一个类中对象的分布也可以是任意的。基于密度的聚类方法中比较有代表华北电力大学硕士学位论文性的有,()算法、算法、()算法、()算法和()算法等。其中,

35、算法、和算法在基于密度的同时,也是基于网格的。流数据的聚类方法流数据的产生通信领域中的电话数据流、上的用户点击数据流、网络监测中的数据包流、各类传感器网络中的检测数据流、金融领域的证券数据流、卫星传回的图像数据流以及零售业务中的交易数据流等形成了一种与传统数据库中静态数据不同的数据形态。这些数据流 产生的数据量在多个领域中快速增长。产生流数据的应用通常需要在线实时处理,及 时有效的处理流数据,并挖掘出其中有效的信息,具有重要的意义。流数据的研究大致可分为两个方面:数据流管理系统()和流数据挖掘。数据流是一个以一定速度连续到达的数据项序列毛,而, ,一 ,这个数据项序列只能按下标的递增顺序读取一次。数据流的速度及其数据项到达的次序是无法控制的。在实际应用中,某些大型数据集要求处理算法只要求一遍扫描,此时算法的输入也可以看作是一种数据流。目前,数据流研究领域有多种数据流模型,可以分为以下几类:设数据流中的数据项五,毛, ,一依次按下标顺序到达,描述一个信号。()时序()模型:么五此 时数据流中的每一项都代表一个独立的信号。()现金登记()模型:令毛(歹,),且。,贝归,【】一【歹】厶此时数据流中多个数据项增量式的表达一个彳。()十字转门()模型:铷。(,玑),此啪,【】彳“【刀玑其中阢可 正,可负。此时数据流中的多个数据 项表达一个彳【月,彳刀

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报