第八章集合论方法.ppt-道客多多

资源描述

1、第八章集合论方法,1,集合论方法,关联规则挖掘粗糙集,2,关联规则挖掘,关联规则的挖掘原理Apriori算法基本思想Apriori算法基于FP-tree的关联规则挖掘算法,3,什么是关联挖掘?,关联规则挖掘：在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用：购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。举例：规则形式： “Body Head support, confidence”. buys(x, “diapers”) buys(x, “beers”) 0.5%, 60

2、% major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75%,4,关联规则挖掘,关联规则（Association Rule）挖掘是发现大量数据库中项集之间的关联关系。从大量商业事务中发现有趣的关联关系，可以帮助许多商业决策的制定Agrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题。,5,关联规则：基本概念,给定: (1)交易数据库 (2)每笔交易是：一个项目列表 (消费者一次购买活动中购买的商品) 查找: 所有描述一个项目集合与其他项目集合相关性的规则 E.g., 98% of people who purchase

3、tires and auto accessories also get automotive services done 应用 * 护理用品 (商店应该怎样提高护理用品的销售？) 家用电器 * (其他商品的库存有什么影响?) 在产品直销中使用附加邮寄,6,基本原理,设I=i1,i2,im是项（Item）的集合。记D为事务（Transaction）的集合（事务数据库），事务T是项的集合，并且TI。设A是I中一个项集，如果AT，那么称事务T包含A。定义1：关联规则是形如AB的蕴涵式，这里AI，BI，并且AB=。,7,定义2：规则的支持度,规则AB在数据库D中具有支持度S，表示S是D中事务同时包含

4、AB的百分比，它是概率P(AB)，即：其中|D|表示事务数据库D的个数，表示A、B两个项集同时发生的事务个数。,8,定义3：规则的可信度,规则AB具有可信度C，表示C是包含A项集的同时也包含B项集，相对于包含A项集的百分比，这是条件概率P(B|A)，即：其中表示数据库中包含项集A的事务个数。,9,定义4：阈值在事务数据库中找出有用的关联规则，需要由用户确定两个阈值：最小支持度（min_sup）和最小可信度（min_conf）。,10,规则度量：支持度与可信度,查找所有的规则 X & Y Z 具有最小支持度和可信度支持度, s, 一次交易中包含X 、 Y 、 Z的可能性可信度, c, 包

5、含X 、 Y的交易中也包含Z的条件概率,设最小支持度为50%, 最小可信度为 50%, 则可得到 A C (50%, 66.6%) C A (50%, 100%),买尿布的客户,二者都买的客户,买啤酒的客户,11,定义5：项的集合称为项集（Itemset），包含k个项的项集称之为k-项集。如果项集满足最小支持度，则它称之为频繁项集（Frequent Itemset）。,12,定义6：关联规则,同时满足最小支持度（min_sup）和最小可信度（min_conf）的规则称之为关联规则，即成立时，规则称之为关联规则，也可以称为强关联规则。,13,关联规则挖掘过程,关联规则的挖掘一般分为两个过程：

6、（1）找出所有的频繁项集：找出支持度大于最小支持度的项集，即频繁项集。（2）由频繁项集产生关联规则：根据定义，这些规则必须满足最小支持度和最小可信度。,14,关联规则的兴趣度,例子：讨论不购买商品与购买商品的关系。设，交易集D，经过对D的分析，得到表格:,15,设定minsupp=0.2, minconf=0.6, 得到如下的关联规则：买牛奶买咖啡 s=0.2 c=0.8 即80的人买了牛奶就会买咖啡。同时得到结论：90的人肯定会买咖啡。买咖啡不买牛奶 s=0.7 c=0.78 支持度和可信度分别为0.7和0.78，更具有商业销售的指导意义。,16,定义7：兴趣度,公式反映了项集A与项集

7、B的相关程度。若即表示项集A出现和项集B是相互独立的。若表示A出现和B出现是负相关的。若表示A出现和B出现是正相关的。意味着A的出现蕴含B的出现。,17,相关度的含义,一条规则的兴趣度越大于1说明我们对这条规则越感兴趣（即其实际利用价值越大）；一条规则的兴趣度越小于1说明我们对这条规则的反面规则越感兴趣（即其反面规则的实际利用价值越大）；兴趣度I不小于0。,18,所有可能的关联规则,19,结果分析,讨论I1I2I3I6共4条规则：由于I1,I21,规则才有价值。兴趣度也称为作用度（Lift）,表示关联规则AB的“提升”。如果作用度（兴趣度）不大于1，则此关联规则就没有意义了。,

8、20,分析,概括地说：可信度是对关联规则地准确度的衡量。支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性。有些关联规则可信度虽然很高，但支持度却很低，说明该关联规则实用的机会很小，因此也不重要。兴趣度（作用度）描述了项集A对项集B的影响力的大小。兴趣度（作用度）越大，说明项集B受项集A的影响越大。,21,Apriori算法基本思想,Apriori是挖掘关联规则的一个重要方法。算法分为两个子问题：找到所有支持度大于最小支持度的项集（Itemset），这些项集称为频繁集（Frequent Itemset）。使用第1步找到的频繁集产生规则。,22,Apriori

9、基本方法,Apriori 使用一种称作逐层搜索的迭代方法，“K-项集”用于探索“K+1-项集”。首先，找出频繁“1-项集”的集合。该集合记作L1。L1用于找频繁“2-项集”的集合L2，而L2用于找L3，如此下去，直到不能找到“K-项集”。找每个LK需要一次数据库扫描。,23,Apriori 性质,性质：频繁项集的所有非空子集都必须也是频繁的。如果项集B不满足最小支持度阈值min-sup，则B不是频繁的，即P（B）min-sup 如果项A添加到B，则结果项集（即BA）不可能比B更频繁出现。因此，BA也不是频繁的，即P（BA）min-sup。,24,Apriori性质,“K-项集”产生“K+1

10、-项集” 设K-项集LK，K+1项集LK+1，产生LK+1的候选集CK+1 有公式：CK+1=LKLK=XY，其中X，Y LK， |XY|=K+1 其中C1是1-项集的集合，取自所有事务中的单项元素。,25,举例,如 L1=A，BC2=AB=A，B，且|AB|=2L2=A，B，A，CC3=A，BA，C=A，B，C，且|ABC|=3,26,Apriori 算法中候选项集与频繁项集的产生实例,27,过程举例,1) 在算法的第一次迭代，每个项都是候选1-项集的集合C1的成员。算法扫描所有的事务，对每个项的出现次数计数 2) 假定最小事务支持计数为2 （即min-sup=2/9=22%），可以确定频繁

11、1-项集的集合L1。它由具有最小支持度的候选1-项集组成。 3) 为发现频繁2-项集的集合L2，算法使用L1*L1来产生候选集C2 4) 扫描D中事务，计算C2中每个候选项集的支持度计数 5) 确定频繁2-项集的集合L2，它由具有最小支持度的C2中的候选2-项集组成。,28,过程举例,6) 候选3-项集的集合C3的产生，得到候选集： C3=A，B，C，A，B，E，A，C，E，B，C，D，B，C，E，B，D，E 按Apriori 性质，频繁项集的所有子集必须是频繁的。由于A，D，C，D，C，E，D，E不是频繁项集，故C3中后4个候选不可能是频繁的，在C3中删除它们。扫描D中事务，对C3中的候选

12、项集计算支持度计数， 7) 确定L3，它由具有最小支持度的C3中候选3项集组成， 8）按公式产生候选4项集的集合C4，产生结果A,B,C,E,这个项集被剪去，因为它的子集B,C,E不是频繁的。这样L4=。此算法终止。L3是最大的频繁项集，即：A,B,C和A,B,E。,29,具体产生过程用图表示,30,候选集与频繁项集的产生,31,产生关联规则,根据前面提到的可信度的定义，关联规则的产生如下：（1）对于每个频繁项集L，产生L的所有非空子集；（2）对于L的每个非空子集S，如果则输出规则“S LS”。注：LS表示在项集L中除去S子集的项集。,32,过程举例,在事务数据库中，频繁项集L=A，B，

13、E，可以由L产生哪些关联规则？ L的非空子集S有：A, B, A, E, B, E, A, B,E。可得到关联规则如下： A B E conf=2/4=50% A E B conf=2/2=100% B E A conf=2/2=100% A B E conf=2/6=33% B A E conf=2/7=29% E A B conf=2/2=100%假设最小可信度为60，则最终输出的关联规则为： A E B 100% B E A 100% E A B 100% 对于频繁项集A，B，C，同样可得其它关联规则。,33,Apriori算法程序,首先产生频繁1-项集L1，然后是频繁2-项集L2，直到

14、有某个r值使得Lr为空，算法停止。在第k次循环中，过程先产生候选k-项集的集合Ck，Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频繁集做一个连接来产生的。Ck中的项集是用来产生频繁集的候选集，最后的频繁集Lk必须是Ck的一个子集。 Agrawal等引入了修剪技术来减小候选集Ck的大小。一个项集是频繁集当且仅当它的所有子集都是频繁集。如果Ck中某个候选项集有一个（k-1）-子集不属于Lk-1，则这个项集可以被修剪掉不再被考虑。,34,35,Apriori算法,连接: 用 Lk-1自连接得到Ck 修剪: 一个k-项集，如果他的一个k-1项集（他的子集）不是频繁的，那他本身也

15、不可能是频繁的。伪代码: Ck: Candidate itemset of size k Lk : frequent itemset of size kC1all Candidate itemset of size from DatabaseL1=candidates in C1 with min_support for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk;for each transaction t in database doincrement the count of all candidate

16、s in Ck+1 that are contained in tLk+1 = candidates in Ck+1 with min_supportend return k Lk;,Apriori 够快了吗? 性能瓶颈,Apriori算法的核心: 用频繁的(k 1)-项集生成候选的频繁 k-项集用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成巨大的候选集: 104 个频繁1-项集要生成 107 个候选 2-项集要找尺寸为100的频繁模式，如 a1, a2, , a100, 你必须先产生2100 1030 个候选集多次扫描数据库：如果最长的模式是n的话，

17、则需要 (n +1 ) 次数据库扫描,36,挖掘频繁集不用生成候选集,用Frequent-Pattern tree (FP-tree) 结构压缩数据库, 高度浓缩，同时对频繁集的挖掘又完备的避免代价较高的数据库扫描开发一种高效的基于FP-tree的频繁集挖掘算法采用分而治之的方法学：分解数据挖掘任务为小任务避免生成关联规则: 只使用部分数据库! 理论和实验表明该算法优于Apriori算法。,37,用交易数据库建立 FP-tree,最小支持度 = 0.5,TID Items bought (ordered) frequent items 100 f, a, c, d, g, i, m,

18、 p f, c, a, m, p 200 a, b, c, f, l, m, o f, c, a, b, m 300 b, f, h, j, o f, b 400 b, c, k, s, p c, b, p 500 a, f, c, e, l, p, m, n f, c, a, m, p,步骤: 扫描数据库一次，得到频繁1-项集把项按支持度递减排序再一次扫描数据库，建立FP-tree,38,FP-tree 结构的好处,完备: 不会打破交易中的任何模式包含了序列模式挖掘所需的全部信息紧密去除不相关信息不包含非频繁项支持度降序排列: 支持度高的项在FP-tree中共享的机会也高决不会

19、比原数据库大（如果不计算树节点的额外开销),39,用 FP-tree挖掘频繁集,基本思想 (分而治之) 用FP-tree递归增长频繁集方法对每个项，生成它的条件模式库, 然后是它的条件 FP-tree 对每个新生成的条件FP-tree，重复这个步骤直到结果FP-tree为空, 或只含维一的一个路径 (此路径的每个子路径对应的相集都是频繁集),40,挖掘 FP-tree的主要步骤,为FP-tree中的每个节点生成条件模式库用条件模式库构造对应的条件FP-tree 递归构造条件 FP-trees 同时增长其包含的频繁集如果条件FP-tree直包含一个路径，则直接生成所包含的频繁集。,41

20、,步骤1: 从 FP-tree 到条件模式库,从FP-tree的头表开始按照每个频繁项的连接遍历 FP-tree 列出能够到达此项的所有前缀路径，得到条件模式库,条件模式库 item cond. pattern base c f:3 a fc:3 b fca:1, f:1, c:1 m fca:2, fcab:1 p fcam:2, cb:1,42,FP-tree支持条件模式库构造的属性,节点裢接任何包含ai, 的可能频繁集，都可以从FP-tree头表中的ai沿着ai 的节点链接得到前缀路径要计算路径P 中包含节点ai 的频繁集，只要考察到达ai 的路径前缀即可，且其支持度等于节点ai

21、的支持度,43,步骤2: 建立条件 FP-tree,对每个模式库计算库中每个项的支持度用模式库中的频繁项建立FP-tree,m-条件模式库: fca:2, fcab:1,f:4,c:1,b:1,p:1,b:1,c:3,a:3,b:1,m:2,p:2,m:1,头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3,44,第3步: 递归挖掘条件FP-tree,“am”的条件模式库: (fc:3),“cm”的条件模式: (f:3),f:3,cm-条件 FP-tree,“cam”条件模式库: (f:3),f:3,cam-条件 FP-tree,45,All f

22、requent patterns concerning m m, fm, cm, am, fcm, fam, cam, fcam,通过建立条件模式库得到频繁集,46,频繁集增长的原理,模式增长的特征令为DB的一个频繁集， B 为的条件模式库，是 B中的一个项，要使是DB中的频繁集，当且仅当是 B 的频繁项. “abcdef ” 是频繁集,当且仅当 “abcde ” 是频繁集, 且 “f ” 在包含 “abcde ”的事务中是频繁的。,47,为什么频繁集增长速度快？,我们的性能研究显示 FP-growth 比Apriori快一个数量级, 同样也比 tree-projection

23、快。原因不生成候选集，不用候选测试。使用紧缩的数据结构避免重复数据库扫描基本操作是计数和建立 FP-tree 树,48,49,FP-growth vs. Apriori: 相对于支持度的扩展性,Data set T25I20D10K,50,关联规则可视化Using Plane Graph,51,关联规则可视化Using Rule Graph,关联规则挖掘：路线图,布尔 vs. 定量关联 (基于处理数据的类型) buys(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60% age(x, “3039”) inc

24、ome(x, “4248K”) buys(x, “PC”) 1%, 75% 单维 vs. 多维关联 (例子同上) 单层 vs. 多层分析那个品种牌子的啤酒与那个牌子的尿布有关系? 各种扩展相关性、因果分析关联并不一定意味着相关或因果最大模式和闭合相集添加约束如, 哪些“小商品”的销售促发了“大商品”的买卖？,52,53,事务数据库的FP-树,54,频繁模式挖掘过程,从FP-树中来挖掘频繁模式，先从L表中最后一项开始。E在FP-树有两个分枝，路经为和。以E为后缀，它的两个对应前缀路径是（BA:1）和（BAC:1），它们形成E的条件模式基。它的条件FP-树只包含单个路径；不包含C，

25、因为它的支持度计数为1，小于最小支持度计数。该单个路径产生频繁模式的所有组合：BE:2，AE:2，BAE:2。,55,频繁模式挖掘过程,对于D，它的两个前缀形成条件模式基（BA:1）,（B:1），产生一个单节点的条件 FP-树（B:2），并导出一个频繁模式BD:2。对于C，它的条件模式基是（BA:2）,（B:2），（A:2），它的条件FP-树有两个分枝（B:4，A:2）和（A:2）。它的频繁模式集为：BC:4，AC:4，BAC:2。对于A，它的条件模式基是（B:4），它的FP-树只包含一个节点（B:4），产生一个频繁模式BA:4。,56,利用FP-树挖掘频繁模式,57,粗糙集概述,现实生

26、活中有很多含糊现象不能简单用真假来表示，如何处理这些现象就成为一个研究领域。早在1904年谓词逻辑的创始人G.Frege就提出了含糊（Vague）一词，他把它归结到边界上，也就是说在全域上存在一些个体既不能在其某个子集上分类，也不能在该子集的补集上分类,58,模糊集,1965年，Zadeh提出了模糊集，不少理论计算机科学家和逻辑学家试图通过这一理论解决G.Frege的含糊概念，但模糊集理论采用隶属度函数来处理模糊性，而基本的隶属度是凭经验或者有领域专家给出的，所以有相当的主观性,59,粗糙集,20世纪80年代初，波兰的Pawlak针对G.Frege的边界线区域思想提出了粗糙集Rough Set

27、，他把那些无法确认的个体都归属于边界线区域，而这种边界线区域被定义为上近似集和下近似集之差集。由于它具有确定的公式描述，完全由数据决定，所以更有客观性。,60,粗糙集的研究,粗糙集理论的主要优势之一是它不需要任何预备的或额外的有关数据信息。自提出以来，许多计算机科学家和数学家对粗糙集理论及其应用进行了研究，使其在理论上日趋完善，特别是由于20世纪80年代末和90年代初在知识发现等领域得到了成功的应用而越来越多受到关注。,61,粗糙集的基本定义,知识的分类观点粗糙集理论假定知识是一种对对象进行分类的能力。而只是必须与具体或抽象世界特定部分相关的各种分类模式联系在一起。这种特定部分称之为所讨论的全域或者论域Universe,

展开阅读全文

第 八章 集合论方法.ppt

第八章集合论方法.ppt