1、第5章 数据挖掘,主要内容,5.1 知识发现与数据挖掘概念5.2 数据挖掘方法和技术5.3 数据挖掘实例,5.1 知识发现与数据挖掘概念,5.1.1 数据挖掘和知识发现的定义5.1.2 数据挖掘对象5.1.3 数据挖掘任务,5.1.1知识发现和数据挖掘的定义,知识发现(Knowledge Discovery in Database,KDD)定义: 从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程。,知识发现过程的步骤为:数据选择(从数据库中检索与分析任务相关的数据)数据清理(消除噪声或不一致数据)数据集成(多种数据源可以组合在一起)数据变换(数据变换或统一成适合挖掘的形式,
2、如通过汇总或聚集操作)数据挖掘(基本步骤,使用智能方法提取数据模式),模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识),数据挖掘的定义,数据挖掘(Data Mining)定义:数据挖掘是从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。关联(如尿布和啤酒的销售关系) 序列(如将事件联系在一起:结婚和买家具) 分类(如识别诸如最有可能离开的客户属性等的模式) 预测(如根据过去的模式预测客户的购买习惯),数据挖掘被认为是KDD过程中的一个特定步骤, 它用专门算法从数据中抽取模式。,数据挖掘应用举例,直接销售确
3、定应该将哪个潜在客户写入邮递表市场分割确定购买相同产品的客户共同特征客户变动预测哪一类客户最有可能离开你的公司到你的竞争者那去市场购物篮分析识别什么样的产品最有可能一起购买保险要求分析发现欺诈交易的模式将当前交易和这些模式进行对比,案例:产品整合,Yahoo!电子邮箱上数据挖掘的可视结果 通过对用户使用行为的意外模式分析,发现在每次会话中,根据这个发现,Yahoo!电子人们阅读邮件和阅读新闻的行为之间存在很强的相关关系邮箱产品小组首先想到的就是验证这种关系的影响:在一组测试用户的邮箱首页上显示一个新闻模块,其中的新闻标题被醒目显示。对于象电子邮箱这种产品,最头痛的问题就是如何获取新的“轻量级用
4、户”,并推动他们的用量,使之变成“重量级用户”。如果做到了,那么流失率就会显著下降。实际上,在Yahoo!的试验中,最弱的一组流失率下降了40%。于是Yahoo!立刻开发并完善了新闻模块,并嵌入Yahoo!电子邮箱的首页,到现在,上亿的消费者都可以看到并使用这种产品。,营销决策,某银行通过对业务数据进行挖掘后,发现一个银行帐户持有者突然要求申请双人联合帐户时,并且确认该消费者是第一次申请联合帐户。,银行会推断该用户可能要结婚了,它就会向该用户定向推销用于购买房屋、支付子女学费等长期投资业务,银行甚至可能将该信息卖给专营婚庆商品和服务的公司。,数据挖掘(DM)和OLAP的关系,OLAP分析是用户
5、建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。数据挖掘在本质上是一个归纳的过程。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,验证一下的行动的影响,那么OLAP工具能回答这些问题。知识发现的早期阶段,OLAP工具有利于探索数据,重要的变量,发现异常数据和互相影响的变量,加快知识发现的过程。,5.1.2 数据挖掘对象,关系数据库和数据仓库文本图像与视频数据Web数据,1. 关系数据库,用SQL可以做什么? 上个季度
6、卖出了什么商品?给我列出上月每个部门的总销售量哪个销售员卖出的商品最多Data Mining又能做什么?预测新顾客的信誉风险检查商品销售变差的原因,2.文本数据库,通常是长句和段落,如作者信息、错误报告等大部分高度非结构化(某些WWW网页)某些半结构化(email信息、html/xml网页)data mining作用对象和类的特征描述关键词和内容关联性分析文本对象的聚类,3.多媒体数据库,存储图象、声音、视频数据用于基于内容的图象检索、语音邮件系统、视频点播系统,WWW和语音识别系统等要解决实时播放问题,图象、声音的连续性问题。,4.万维网WWW,WWW和各种搜索引擎共同组合成一个广大的信息网
7、。Web mining-数据挖掘新的重要应用web content miningweb structure miningweb usage mining前景乐观,但困难较多基于关键字的搜索系统非结构化、缺乏统一的模式,4 空间数据库,存储与空间相关的信息,包括地图、卫星图象等。data mining作用回答某一区域的居民分布情况分析气候、交通等因素对城市居民迁移的作用,5. 时间数据库和时间序列数据库,两者都存储与时间有关的数据时间数据库包含一个时间相关的属性时间序列数据库存储随时间而变化的信息(例如:股票交易)data mining作用发现对象演化特征和变化趋势银行根据顾客流量调度银行操作股
8、票投资决策,5.1.3数据挖掘任务,数据挖掘的任务,关联分析 发现规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。 例:尿布 啤酒(50%-75%) 找出客户最有可能一起购买的物品 找出给A公司用户推荐的是什么书,数据挖掘的任务,时序模式 通过时间序列搜索出重复发生概率较高的模式。 找出客户购买某一产品后还会再购买什么产品 在股市中找到有相似波动的股票,数据挖掘的任务,聚类分析 考虑的是数据对象,将数据对象根据一定的规则进行分组或聚类。类在事先是不知道的!,数据挖掘的任务,分类 找出描述并区分数据类或概念的模型或函数,以便能用模型预测类标记未知的对象类。类在事先是知道的! 将信用
9、卡申请分为低风险、中等风险和高风险三类 将保险要求分类为正常和可疑两种,数据挖掘的任务,孤立点分析(偏差检测) 有些对象与数据的一般行为或模式不一致,称这些数据对象是孤立点。这些孤立点有些可能是噪音,有些点可能很重要。 欺诈分析,数据挖掘的任务,预测 利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等预测哪一类客户会在六个月内离开预测信用卡候选人可能的帐户平衡大小,5.2 数据挖掘的方法和技术,5.2.1 关联规则5.2.2 分类(决策树),5.2.1 关联规则,5.2.1.1 关联规则的基本概念5.2.1.2 Apriori算法5.2.1.3 由关联挖掘到相关分析,关
10、联规则挖掘,关联规则挖掘的典型案例:购物篮问题在商场中拥有大量的商品(项目),如:牛奶、面包等,客户将所购买的商品放入到自己的购物篮中。通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯哪些物品经常被顾客购买?同一次购买中,哪些商品经常会被一起购买?一般用户的购买过程中是否存在一定的购买时间序列?具体应用:利润最大化商品货架设计:更加适合客户的购物路径货存安排:实现超市的零库存管理用户分类:提供个性化的服务,关联规则形式,规则形式:“Body Head support, confidence”.例buys(x, “diapers”) buys(x, “beers”) 0.5%,
11、60%age(“30-40”)income(“42000-50000”) buys(x, “high_resolution_TV”) 30%,70%age(“30-40”) buys(x, “IBM_computer”) 20%,60%age(“30-40”) buys(x, “computer”) 30%,65%布尔关联规则 量化规则 单维规则 多维规则单层规则 多层规则,关联规则的定义,假设 I=i1 ,i2 ,i3 ,in是 n 个不同项目的集合,给定一个交易数据库 D(即一个交易集合),D 中的每个元素(交易)T 是 I中一些项目组成的集合,T I。关联规则表示为:A B,其中 A I
12、 , B I 且 AB= ,A 表示此关联规则的前件或前提B 为此关联规则的后件或结论,关联规则的有关概念,项目 (Item) 交易数据库中的一个属性字段,每个字段有一定的取值范围。对超级市场来讲,项目一般是指一次交易中的一个物品。交易(Transaction) 某个客户在一次交易中,发生的所有项目的集合。项目集(Itemset) 包含若干个项目的集合。项目集的维数 把一个项目集所包含的项目的个数称为此项目集的维数或项目集的长度。长度为 k 的项目集,称作 k 维项目集。,客户在某次交易中购买了“牛奶” 、“面包”和“黄油”,则“牛奶” 、“面包”和“黄油”就代表了三个不同的项目,并且这个交易
13、为:“牛奶” ,“面包” ,“黄油” 。“牛奶” ,“面包” ,“黄油” 、“牛奶” 、“牛奶” ,“面包” 、 “面包” ,“黄油” 等都是项目集,但只有“牛奶” ,“面包” ,“黄油” 才是一个交易。项目集“牛奶” ,“面包” ,“黄油” 的维数或长度为 3,记作 3- 项目集。,支持度(Support) 假定 X 是一个项目集,D 是一个交易集合或交易数据库,称 D 中包含 X 的交易的个数与 D 中总的交易个数之比为 X 在 D 中的支持度。把 X 的支持度记作 s(X),而关联规则 X Y 的支持度则记作 s(X Y), 记s(X Y)=p(XUY)置信度(Confidence) 对
14、形如 X Y 的关联规则,其中 X 和 Y 都是项目集,定义规则的可信度为交易集合 D 中既包含 X 也包含 Y 的交易个数与 D 中仅包含 X 而不包含 Y 的交易个数之比,或者说是项目集 XY 的支持度与 X 的支持度之比,即 s(X Y)/ s(X)。把规则 X Y 的置信度记作 conf(X Y), c(X Y)=p(Y/X).,规则的度量: 支持度和置信度,规则的度量: 支持度和置信度,置信度是对关联规则的准确度的度量,或者说表示规则的强度;关联规则的置信度越高,说明这条规则越可靠。支持度是对关联规则的重要性的度量,表示规则的频度。关联规则的支持度越高,说明规则经常出现。有些关联规则
15、置信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小。反之,如果支持度很高,置信度很低,则说明该规则不可靠。如果不考虑关联规则的支持度和可信度,那么在数据库中存在非常多的关联规则。事实上,人们一般只对那些满足一定的支持度和置信度的关联规则感兴趣。,为了发现有意义的关联规则,需要由用户给定两个基本阈值:最小支持度和最小置信度。最小支持度(Minimum Support) 由用户定义的衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性,记作 min_s。最小置信度(Minimum Confidence) 由用户定义的衡量可信度的一个阈值,表示规则的最低可靠性,记作 min_c。 关联
16、规则的挖掘就是要发现所有满足用户给定的最小支持度和最小置信度的所有条件蕴涵式,即关联规则(强关联规则)。,规则的度量: 支持度和置信度,使用最小置信度和支持度找出所有的规则 X Ysupport, s, probability that a transaction contains X Yconfidence, c, conditional probability that a transaction having X also contains Y,如果最小支持度是 50%, 最小置信度是50%, 我们可以得到A C (50%, 66.6%)C A (50%, 100%),Customerb
17、uys diaper,Customerbuys both,Customerbuys beer,关联规则挖掘一个例子,Min. support 50%Min. confidence 50%,对于规则 A C:support = support(A C) = 50%confidence = support(A C)/support(A) = 66.6%,5.2.1 关联规则,5.2.1.1 关联规则的基本概念5.2.1.2 Apriori算法5.2.1.3 由关联挖掘到相关分析,5.2.1.2 Apriori算法,Apriori 算法是最有影响的挖掘布尔关联规则频繁项集的算法。Apriori 性质
18、是频繁项集的所有非空子集都是频繁的。Apriori 算法基于如下观察:如果项集 I 不满足最小支持度阈值 min_sup,则 I 不是频繁的,即 P(I)min_sup。如果项 A 添加到 I,则结果项集即(IA)不可能比 I 更频繁出现。因此,IA 也不是频繁的,即 P(IA)=min_conf,就生成关联规则。即从第一步得到的频繁项目集中找出置信度不小于用户给定的最小置信度min_conf的规则。,The Apriori Algorithm Example,Database D,Scan D,候选集C1,从候选集C1产生频繁集L1,候选集C2,候选集C2,Scan D,候选集C3,频繁集L
19、3,Scan D,从候选集C2产生频繁集L2,频繁集L1,频繁集L2,解法步骤令k=1(1)候选集C1,并求其支持度(2)去掉支持度小于50%的候选荐集合,得频繁项集合L1为 1,2,3 , 5 令k=2(1)候选集C2,并求其支持度,解法步骤(2)去掉支持度小于50%的候选荐集合,得频繁项集合L2为 1 3,2 3,2 5 , 3 5 令k=3(1)候选集C3,并求其支持度,解法步骤(2)去掉支持度小于50%的候选荐集合,得频繁项集合L3为 2 3 5 求可信度最高的关联规则 2 and 3 5 sup=2/4=50% conf=2/2=100%,解法步骤2 and 5 3 sup=2/4=
20、50% conf=2/3=66.7%3 and 5 2 sup=2/4=50% conf=2/2=100%可信度最高的关联规则为 2 and 3 5 3 and 5 2,Apriori算法,连接步: Ck 通过与Lk-1连接而产生剪枝步: 任何 (k-1)-项集如果不是频繁的就不能成为k项频繁项集的子集。算法:Ck: Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk !=; k+) Ck+1 = candidates generated from Lk; fo
21、r each transaction t in database increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_supportreturn L=k Lk;,怎样产生候选项?,假设 Lk-1 都按序排列第一步: 连接 Lk-1 insert into Ckselect p.item1, p.item2, , p.itemk-1, q.itemk-1from Lk-1 p, Lk-1 qwhere p.item1=q.item1, ,
22、p.itemk-2=q.itemk-2, p.itemk-1 Z 的支持度和置信度都占优势我们需要一个方法来度量事件的依靠性和相关性P(B|A)/P(B) 使关联规则 A = B的提升,其他的兴趣度衡量方法: Interest,Interest (correlation, lift)同时考虑 P(A) and P(B)如果 A 和 B 是独立事件的话,P(AB)=P(B)*P(A)如果值小于1,则A 和 B 是负相关,否则是正相关的,提高Apriori方法的有效性,挑战需要多次扫描数据库大量的候选集计算候选集的支持度工作量巨大、繁琐提高Apriori算法的效率: the general ide
23、as降低数据库的扫描次数缩小候选集的空间加快候选集支持度的计算过程,实例,在图书情报领域的应用:分析2篇相关论文彭仪普,熊拥军: 关联挖掘在文献借阅历史数据分析中的应用.情报杂志.2005年第8期姜彬,李逸波,毕争鸣:关联规则挖掘在图书管理系统中的应用。(烟台海军航空工程学院 ),作业,1.正确解释下述关联规则的含义: type(x, “student”) age(x, “20-25”) book(x, “novel”) 20%, 75%。2. 数据库有如下4个事物。设最小支持度为50%。找出最大的频繁项目集,并求出其关联规则。,5.2 数据挖掘的方法和技术,5.2.1 关联规则5.2.2 分
24、类(决策树),分类的步骤,构建模型: 描述一些预先定义好的类训练数据集: 用于构建模型的数据每一个样本属于一个预先定义好的类:类标号属性分类规则, 决策树,其它方法模型应用: 对新的对象判断类别估计模型的准确性准确性:对测试数据正确分类的比例测试数据和训练数据独立,否则会产生 “过适应 “(over-fitting)如果模型的准确性是可接受的 应用模型对未知的数据分类,分类的过程 (1): 模型构建,训练数据,分类算法,如果 头发 = 长OR 体重70那么 性别 = 女,分类器(模型),分类的过程 (2):应用模型,分类器,测试数据,未知数据,(Jane, 60, 短),性别?,使用决策树进行
25、分类,决策树 决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。一个树型的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分布,决策树知识的表示,Outlook,Sunny,Overcast,Rain,Humidity,High,Normal,No,Yes,Yes,Wind,Strong,Weak,No,Yes,使用决策树进行分类,决策树生成算法分成两个步骤树的生成开始,数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用: 对未知数据进行分割按照决策树上采用的分割属性逐层往
26、下,直到一个叶子节点,决策树算法,基本算法(ID3)自上而下分而治之的方法开始时,所有的数据都在根节点属性都是种类字段 (如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain)停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割,Training Dataset,属性选择的统计度量,信息增益Information gain (ID3/C4.5)所有属性假设都是种类字段经过修改之后可以适用于数值字段,信息论 以数学的方法度量并研究信息1948 年由Shannon (香农)提
27、出 自信息量 信息熵 条件熵 平均互信息量,自信息量 在收到ai之前,收信者对信源发出ai的不确定性定义为信息符号ai的自信息量I(ai),其中P(ai)为信源发出ai的概率,信息熵 度量整个信源X整体的不确定性 r为信源所有可能符号数,条件熵 X为信号源,Y为随机变量 p( ai/bi) 为当Y为bi时,X为ai的概率 X对应信源符号ai,Y对应信源符号bi,互信息,信息增益度度量(ID3/C4.5),任意样本分类的期望信息:I(s1,s2,sm)=Pi log2(pi) (i=1.m)其中,数据集为S,m为S的分类数目, Pi由A划分为子集的熵:E(A)= (s1j+ +smj)/s *
28、I(s1j+ +smj)A为属性,具有V个不同的取值信息增益:Gain(A)= I(s1,s2,sm) E(A),训练集(举例),ID3算法,使用信息增益进行属性选择,Class P: buys_computer = “yes”Class N: buys_computer = “no”I(p, n) = I(9, 5) =0.940Compute the entropy for age:,HenceSimilarly,Decision Tree (结果输出),age?,overcast,student?,credit rating?,no,yes,fair,excellent,40,no,no
29、,yes,yes,yes,30.40,作业,收入¥40,000,工作时间5年,高负债,高风险,低风险,高风险,低风险,否,否,否,是,是,是,一棵简单的决策树,1.正确表述下面红条叶子代表的意思,5.3 聚类分析,5.3.1 什么是聚类分析,聚类:数据对象的集合同一簇中的对象彼此相似与其他簇中的对象彼此相异聚类分析将数据对象的集合分组成为由相似对象组成的多个类聚类分析中要划分的类是未知的聚类分析在数据挖掘中的典型应用作为独立的工具 来获得数据分布的情况也可以作为其他算法的预处理步骤聚类分析可以完成孤立点挖掘,5.3.2聚类分析中的数据类型,数据结构数据矩阵(二模矩阵),对象-属性结构,xi(i
30、=1,2,n)为对象,每个对象有p个属性,xip为第i个对象第p个属性的观测值。,相似性矩阵(单模矩阵),对象-对象结构,它存放n个对象彼此之间形成的相似性。d(i,j)=d(j,i),且d(i,i)=0。 d(i,j)表示对象i和对象j之间的相似性的量化表示。,区间标度变量,变量的数据标准化计算平均绝对偏差:这里计算标准化的度量值 (z-score),相似性度量,两个对象间的相异度是基于对象间距离来计算的常用的方法包括: 明考斯基距离 Minkowski :这里 i = (xi1, xi2, , xip) and j = (xj1, xj2, , xjp) 是两个p维的数据对象如果q1,那么
31、这个就是曼哈坦距离,如果q2,那么就是欧几里的距离:对于距离函数满足如下要求d(i,j) 0d(i,i) = 0d(i,j) = d(j,i)d(i,j) d(i,k) + d(k,j),5.3.3聚类分析中的主要方法,划分方法层次方法基于密度的方法基于模型的方法,划分方法,划分方法:为包含n个数据对象的数据库生成k个簇每个簇至少包含一个对象 每个对象必须属于且只属于一个簇给定k值,采用一个划分规则将对象组织成k个划分启发式方法: k-均值法(k-mean) 和 k-中心点 法(k-medoids) k-均值法 :该算法中每个簇用用该簇中对象的平均值来表示 k-中心点法:该算法中每个簇用接近聚
32、类中心的一个对象来表示 注:这些启发式聚类方法对中小规模的数据库中发现球状簇很适用。,层次方法,层次的方法对给定数据对象集合进行层次的分解层次的方法又可以分为凝聚的和分裂的 凝聚的方法也称为自底想上的方法,一开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的组合井为一个(层次的最上层)或达到一个终止条件。分裂的方法也称为自顶向下的方法,一开始将所有的对象置于一个簇中,在迭代的每一步中,一个簇被分裂为更小的簇,直到最终的每个对象在单独的一个簇中,或达到一个终止条件。 注:层次的方法缺陷在于,一旦一个合并或分裂完成,它就不能撤消,所以该技术的一个要问题是它不能更正错误的决定。
33、,层次方法,这种方法不需要提供k值,但是必须提供中止条件,基于密度的方法,它不是基于各种各样的距离的,而是基于密度的。只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类,也就是说,对于给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。 基于密度的方法中,聚类过程中的参数需要输入,而要产生可接收的聚类结果的参数值选取的责任留给了用户,这就存在算法对参数很敏感的问题,对于真实高维的数据集合而言,参数的设置通常是依靠经验,难以确定,设置的细微不同可能会导致差别很大的聚类结果。,基于密度的方法,基于密度的方法
34、,Core,Border,Outlier,Eps = 1cmMinPts = 5,基于模型的方法,给每一个聚类假定一个模型,然后去寻找能够很好地满足这个模型的数据集。统计学和神经网络的方法,5.3.4 K-均值方法,K-均值算法是一种基于划分的聚类算法。 K-均值算法以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值(被看成簇的重心)来进行。 优点:简单而且保证至少得到准则函数的局部最大值 (最小值)。缺点:无法知道收敛到的聚类与最佳的可能聚类相比的好坏程度,K-均值方法,它的思想:聚类的数量K是在算法运行前确定的首先随机地选择
35、k个对象,每个对象初试地代表了一个簇的平均值或中心 ;对剩下的每个对象,根据其与各个簇中心的欧氏距离,将它赋给最近的簇。 再根据欧氏距离把每个点分配到最接近其均值的聚类中;然后重新计算每个簇的平均值,并作为新的中心进行递归;如此继续直到准则函数达到收敛为止,准则函数 一般都采用均方差作为准则函数,具体定义如下:,E是所有对象的平方误差的总和,p表示给定的数据对象,是空间中的点,mi是簇Ci的平均值。这个准则试图使生成的结果簇尽可能地紧奏和独立。,K-均值算法,算法如下:输入:簇的数目k和包含n个对象的数据库;输出:k个簇,使平方误差准则最小。 步骤: (1)任意地选择k个对象作为初始的簇中心;
36、 (2)根据簇中对象的平均值,将每个对象(重新)赋给最类似的簇 ; (3)计算每个簇中对象的平均值,即更新簇的平均值; (4)直到不再发生变化为止,否则回到第二步重复。,K-均值方法,例,K-均值方法,优点:简单而且保证至少得到准则函数的局部最大值 (最小值)。缺点:必须事先给出要生成簇的数目k 对噪声和异常数据也很敏感,因为这类数据可能会影响到各聚类的均值(计算结果),例题,对于表中的10个点,利用k-均值算法将它们分成3类。进行二次k-均值算法的计算。,5.3.5 k-medoids(k-中心点方法),k-medoids算法设想利用中心点来作为一个参考点代替k-means算法中的各聚类的均
37、值(作为聚类中心),从而可以根据各对象与各参考点之间的距离(差异性)之和最小化的原则,继续应用划分方法。,E是所有对象的平方误差的总和,p表示给定的数据对象,是空间中的点,mi是簇Ci的代表点。如果mi 被限制为p的一个成员,则称之为一个中心点。如果mi是聚类的点的平均,而且不一定就是P的成员,那就是平均点。k-均值法和k-中心方法密切相关的,但和k-均值法不同, k-中心方法对噪声或孤立点不是很敏感。,K-中心点算法,算法如下:输入:簇的数目k和包含n个对象的数据库;输出:k个簇,使得所有对象与其最近中心点的相异度总和最小。 步骤: (1) 任意地选择k个对象作为初始的中心点; (2) 根据
38、每个簇的中心代表对象,将每个剩余的对象赋给离它最近的中心点所代表的簇; (3) 随机得选择一个一非中心点对象Orandom; (4) 计算用Orandom代替当前一个代表对象Oj的总代价; (5)形成新的k个中心点集合,即用Orandom替换Oj 。 (6) 直到不发生变化,否则回到步骤(2)。,5.3.6 模糊聚类方法,上面介绍的几种聚类算法可以导出确定的类,也就是说,一个数据点或者属于一个类,或者不属于一个类,不存在重叠的情况。我们可以称这些聚类方法为“确定性分类”。模糊聚类分析,是从模糊集的观点来探讨事物的数量分类的一类方法。 对于模糊集来说,一个数据点都是以一定程度属于某个类,也可以同
39、时以不同的程度属于几个类。常用的模糊聚类算法是模糊C-均值FCM(Fuzzy C-Means)聚类算法。,FCM算法,FCM算法的基本思想:将n个向量分成c个模糊组;不断地调整每组的聚类中心,使得非相似性指标的目标函数达到最小。,FCM算法,设X=x1,x2,xnRn是数据集, n是数据集中元素的个数;根据某种相似性度量,该集合被聚合成c个子集,这c个子集组成数据集X的一个模糊划分;模糊划分用隶属度矩阵U=uij表示, U是一个nc矩阵uij是第j个数据点属于第i个样本的隶属度,且uij 应满足以下条件;,FCM算法,dij=|xj-vi|是样本点xi到聚类中心vj的欧氏距离,VjRn(1j
40、c) V=v1,v2,vc 。FCM的目标函数Jm(U,V)表示为:,Jm(U,V)为每个数据点到相应的聚类中心的加权距离的平方和,m为权重系数,可控制聚类结果的模糊程度 ,目前m 的选择大多来自实验或经验,一般取1. 1m 5。FCM 算法是使目标函数Jm (U , V) 最小化的迭代收敛过程。,FCM算法,Jm(U,V) 取得极小值的必要条件为:,算法步骤,设定聚类数目c和参数m初始化各个聚类中心vi重复下面的运算,直到各个样本的隶属度值稳定: 用当前的聚类中心计算隶属度函数; 用当前的隶属度函数更新计算各类聚类中心。当算法收敛时,就得到了各类的聚类中心和各个样本对于各类的隶属度值,从而完
41、成了模糊聚类划分。,数据挖掘对聚类的典型要求,可伸缩性即不论对于小数据集还是对于大数据集,算法都应是有效的处理不同类型属性的能力既可处理数值型数据,又可处理非数值型数据 既可以处理离散数据,又可以处理连续域内的数据 发现任意形状的聚类欧几里德距离或者曼哈坦距离的许多聚类算法仅趋向于发现具有相近密度和尺寸的球状簇 但对于一个簇可能是任意形状的情况,提出能发现任意形状簇的算法是很重要的,数据挖掘对聚类的典型要求,用于决定输入参数的领域知识的最小化聚类结果对于输入参数很敏感,通常参数较难确定,尤其是对于含有高维对象的数据集更是如此 要求用人工输入参数不但加重了用户的负担,也使得聚类质量难以控制 处理噪声数据的能力绝大多数现实世界中的数据库都包含了孤立点、空缺、未知数据或有错误的数据 一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。 对输入记录的顺序不敏感对于同一个数据集合,以不同的顺序提交给同一个算法时,可能产生差别很大的聚类结果,数据挖掘对聚类的典型要求,高维性既可处理属性较少的数据,又能处理属性较多的数据 基于约束的聚类既要找到满足特定的约束,又要具有良好聚类特性的数据分组是一项具有挑战性的任务 。 可解释性和可用性挖掘出来的信息是可理解的和可用的,