数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者王丽珍周丽华陈红梅第6章.ppt-道客多多

资源描述

1、1,在线教务辅导网：http:/,教材其余课件及动画素材请查阅在线教务辅导网,QQ:349134187 或者直接输入下面地址：,http:/,第六章关联分析,3,第六章目录,6.1 问题定义 6.2 Apriori算法 6.3 频繁项集的紧凑表示 6.4 FP-growth算法 6.5 本章小结,4,引例（1）,关联分析的一个典型应用是购物篮分析。所谓购物篮分析就是在某商店的销售事务数据集中分析该商店的“大部分顾客会在一次购物中同时购买什么商品？”，以便对商品促销、布局等提供帮助。例如，如果某食品商店通过购物篮分析得知“大部分顾客会在一次购物中同时购买面包和牛奶”，那么该食品商店通过降价

2、促销面包有可能同时提高面包和牛奶的销量。再例如，如果某儿童用品商店通过购物篮分析得知“大部分顾客会在一次购物中同时购买奶粉和尿片”，那么该儿童用品商店通过将奶粉和尿片分别放置在相距较远的地方，中间放置一些其他常用儿童用品，可能诱发顾客在购买奶粉和尿片时一路购买其他商品。,5,引例（2）,在购物篮分析中，我们用关联规则表示“在一次购物中同时购买的商品”的关联关系，用关联规则的支持度与置信度反映该关联规则对“大部分顾客”成立。例如，在一次购物中同时购买面包和牛奶的关联关系可以用关联规则表示为：bread=milk。如果该关联规则的支持度为5%、置信度为70%，则表示全部顾客中5%同时购买面包和

3、牛奶，购买面包的顾客中70%同时购买牛奶。,6,引例（3）,购物篮分析只是关联分析的一种形式与应用。事实上，关联分析可以分为许多种类。 1）根据分析的模式类型，可以分为项集模式、子序列模式与子结构模式。 2）根据分析的规则类型，可以分为关联规则和相关规则。 3）根据规则的值类型，可以分为布尔关联规则与量化关联规则。 4）根据规则的数据维（或谓词），可以分为单维关联规则与多维关联规则。 5）根据规则的抽象层，可以分为单层关联规则与多层关联规则。,7,6.1 问题定义（1）,设I=i1,i2,im是项集合；T=t1,t2,tn是事务集合，其中。A=B称为T中的关联规则，其中。在事务集合T中，

4、包含的事务占全部事务的百分比称为T中关联规则A=B的支持度，记为。在事务集合T中，包含的事务占包含A的事务的百分比称为T中关联规则A=B的置信度，记为。,8,6.1 问题定义（2）,设min_sup是最小支持度阈值；min_conf是最小置信度阈值。如果事务集合T中的关联规则A=B同时满足 support(A=B)min_sup confidence(A=B)min_conf则A=B称为T中的强关联规则。关联规则挖掘就是在事务集合中挖掘强关联规则。,9,6.1 问题定义（3）,关联规则挖掘算法主要包括两个步骤：（1）产生频繁项集（支持度测试）包含k个项的集合称为k-项集，记为I

5、k。在事务集合T中，包含某k-项集Ik的事务数称为T中Ik的支持计数（或出现频率），记为sup_count(Ik)。在事务集合T中，包含某k-项集Ik的事务占全部事务的百分比称为T中Ik的支持度，记为support(Ik)=P(Ik)。设n是事务集合T中的事务数，即n=|T|。如果T中某k-项集Ik的支持计数满足sup_count(Ik)nmin_sup即support(Ik)min_sup则Ik称为T中的频繁k-项集。所有T中的频繁k-项集集合记为Lk。,10,6.1 问题定义（4）,产生频繁项集就是找出支持度大于等于最小支持度阈值的关联规则。例如，如果项集a,b,c是频繁3-项集，

6、即support(a,b,c)=P(a,b,c)min_sup，那么，support(a=bc)=support(b=ac)=support(c=ab)= support(ab=c)=support(ac=b)=support(bc=a)= P(a,b,c)min_sup （2）产生强关联规则（置信度测试）产生强关联规则就是在由频繁项集的项组成的关联规则中，找出置信度大于等于最小置信度阈值的关联规则。在上述两个步骤中，关键是第一步骤，它的效率影响整个关联规则挖掘算法的效率。因此，关联规则挖掘算法的核心是频繁项集产生方法。,11,6.2 Apriori算法 6.2.1 频繁项集产生（1）,1

7、. Apriori性质定理6.1 如果一个项集Ii是频繁项集，则它的所有非空子集Ij一定也是频繁项集。该定理也称为Apriori性质。证明： sup_count(Ij)sup_count(Ii)sup_count(Ii)nmin_supsup_count(Ij)nmin_sup证毕。,12,6.2.1 频繁项集产生（2）,根据Apriori性质，Apriori算法的基本思想是：首先，扫描一次事务集合，找出频繁1-项集集合L1。基于L1，产生所有可能频繁的2-项集，即候选2-项集集合C2（连接）；基于L1，优化C2（剪枝）；基于C2，再扫描一次事务集合，找出频繁2-项集集合L2（支持计数

8、）。依次类推，直至不能找到频繁项集为止。最后，在所有频繁项集中产生强关联规则。,13,6.2.1 频繁项集产生（3）,2. 连接：基于频繁k-项集集合Lk，产生所有可能频繁的(k+1)-项集，即候选(k+1)-项集集合Ck+1。 Apriori算法假设项集、事务中的项按字典序排列。设lu,lvLk。如果(lu1=lv1)(luk-1=lvk-1)(luklvk)，其中lij（i=u或i=v，1jk）表示li的第j项，则lu，lv称为可连接的。设lu,lvLk且是可连接的。lu,lv的连接运算定义为：=lw= lu1luk lvk。例如，如果ab,ac,bcL2，那么ab与ac是可连接

9、的，其连接运算结果为abc；ab与bc、ac与bc都不是可连接的。,14,6.2.1 频繁项集产生（4）,根据Apriori性质，可以证明连接运算是完备的，即。因此，连接就是仅对频繁k-项集集合Lk中的所有可连接的频繁k-项集进行连接运算，产生候选(k+1)-项集集合Ck+1。这样，可以大量压缩搜索空间。例如，在包含4个项a,b,c,d的搜索空间中，如果频繁1-项集集合L1=b,c,d,那么候选2-项集集合C2=bc,bd,cd，即如果1-项集a不是频繁项集，那么不用计算包含a的所有2-项集ab、ac、ad的支持度，当然也不用计算包含a的所有3-项集abc、abd、acd和4-项集abcd

10、的支持度，从而压缩了搜索空间，如图6.1 所示。,15,6.2.1 频繁项集产生（5）,图6.1 连接步与剪枝步压缩搜索空间,16,6.2.1 频繁项集产生（6）,3. 剪枝：基于频繁k-项集集合Lk，优化候选(k+1)-项集集合Ck+1。就是对候选(k+1)-项集集合Ck+1中的所有候选(k+1)-项集进行子集测试，优化候选(k+1)-项集集合Ck+1。这样，又可以进一步压缩搜索空间。例如，如果频繁2-项集集合L2=bc,bd，那么候选3-项集集合C3=bcd，由于候选3-项集bcd的2-项集cd不是频繁项集，所以可以删除，不用计算它的支持度，从而又压缩了搜索空间，如图6.1所示。,17,

11、6.2.1 频繁项集产生（7）,4. 支持计数：基于候选(k+1)-项集集合Ck+1，扫描一次事务集合，找出频繁(k+1)-项集集合Lk+1。 1）Apriori算法按字典序从最左项到最右项依次指定项集的项。例如，如果事务为abcde，那么3-项集的第一项（最左项）只能是abcde、bcde、cde，前二项只能是abcde、acde、ade、bcde、bde、cde，3-项集只能是abc、abd、abe、acd、ace、ade、bcd、bce、bde、cde，其中，表示随后可跟的项。,18,6.2.1 频繁项集产生（8）,2）Apriori算法采用Hash树。候选项集按字典序从最左项到最右

12、项依次指定散列的Hash树分枝，最后存放于Hash树的叶节点中。事务项集也按相同的方法散列到Hash树的叶节点，并仅需与叶节点中的候选项集比较，而不需与所有候选项集比较。例如，如果候选3-项集集合C3=abc,acd,bef,cdf,cef,def，Hash树有三个分枝，事务为abcde，那么Hash树结构、候选项集分布、枚举与散列事务项集及匹配候选项集过程如图6.2所示。,19,6.2.1 频繁项集产生（9）,图6.2 Hash树结构、候选项集分布、枚举与散列事务项集及匹配候选项集过程,20,6.2.1 频繁项集产生（10）,例 6.1 假设事务集合T如表6.1所示，最小支持度阈值min_

13、sup为20%。写出搜索所有频繁项集的过程。因为：min_sup=20% n=9 n*min_sup =9*20%=1.8所以：支持计数大于等于1.8的项集是频繁项集。,21,6.2.1 频繁项集产生（10）,22,6.2.1 频繁项集产生（11）,表6.7 频繁3-项集集合L3,23,6.2.2 规则产生（1）,1）对于每个频繁项集l，产生l的所有非空真子集。 2）对于l的每个非空真子集lu，如果l的支持计数除以lu的支持计数大于等于最小置信度阈值min_conf，则输出强关联规则lu=(llu)。其中，因为l是频繁项集，根据Apriori性质，lu与(llu)都是频繁项集，所以，其支持计

14、数在频繁项集产生阶段已经计算，在此不必重复计算。,24,6.2.2 规则产生（2）,例 6.2 假设最小置信度阈值min_ conf为70%。写出由例6.1中的频繁项集i1i2i5的所有项组成的强关联规则。因为：频繁项集i1i2i5的支持计数为2，它的所有非空真子集及其支持计数如表6.8所示。所以：强关联规则有i5=i1i2i1i5=i2i2i5=i1,25,6.2.2 规则产生（3）,定理6.2 对于频繁项集l及其两个非空真子集lu和lv，如果，并且规则lu=(llu)不是强关联规则，则规则lv=(llv)也不是强关联规则。证明：sup_count(lv)sup_count(lu) 证毕。

15、定理6.2也可以说，如果，并且规则lu=(llu)不是强关联规则，则规则lv=(llv)也不是强关联规则。,26,6.2.2 规则产生（4）,Apriori算法对于每个频繁项集，采用逐层搜索策略产生其强关联规则，同时根据定理6.2压缩搜索空间。对于每个频繁项集，第一层产生后件只有一项的强关联规则，并生成它们的1-后件集合R1；第二层产生后件有两项的强关联规则，但是根据定理6.2，可以通过R1中的只有一项的后件进行连接运算产生有两项的后件，再通过置信度计算，产生后件有两项的强关联规则，并生成它们的2-后件集合R2；依次类推，可以产生所有强关联规则；其中，后件连接运算与频繁项集连接运算一

16、样。,27,6.2.2 规则产生（5）,图6.3 压缩强关联规则搜索空间,28,6.2.3 Apriori算法（1）,1. 算法描述算法：Apriori算法输入：事务集合T，最小支持度阈值min_sup，最小置信度阈值min_conf 输出：强关联规则集合SR 变量：频繁k-项集集合Lk，候选k-项集集合Ck，频繁项集集合L，k-后件集合Rk 步骤： /频繁项集产生（1）for T中的每个事务t （1.1）for t中的每个项i （1.1.1）i.sup_count=i.sup_count+1 /1-项集支持计数（2）for 每个项i （2.1）if i.sup_countnmin_

17、sup then L1=L1i /找出频繁1-项集,29,6.2.3 Apriori算法（2）,（3）for (k=2；Lk-1；k+) （3.1）for Lk-1中的每个项集lu （3.1.1）for Lk-1中项集lu之后的每个项集lv if (lu1=lv1)(luk-2=lvk-2)(luk-1lvk-1) then/连接 Ck=Ckc /找出候选k-项集 for c中的每个(k-1)-项集s if then Ck=Ck-c /剪枝,30,6.2.3 Apriori算法（3）,（3.2）for T中的每个事务t （3.2.1）for t中的每个k-项集s if sCk then s.s

18、up_count=s.sup_count+1 /k-项集支持计数（3.3）for Ck中的每个项集c （3.3.1）if c.sup_countnmin_sup thenLk=Lkc /找出频繁k-项集（3.4） L=LLk,31,6.2.3 Apriori算法（4）,/规则产生（4）for L中的每个频繁项集l （4.1）for l中的每个1-项集l1 （4.1.1） if thenSR=SR(l-l1)=l1 /找出后件只有1项的强关联规则 R1=R1l1 /找出1-后件,32,6.2.3 Apriori算法（5）,（4.2）for (j=2；Rj-1；j+) （4.2.1）for

19、Rj-1中的每个后件lu for Rj-1中后件lu之后的每个后件lv if (lu1=lv1)(luj-2=lvj-2)(luj-1lvj-1) then/连接if thenSR=SR(l-lj)=lj /找出后件有j项的强关联规则 Rj=Rjlj /找出j-后件,33,6.2.3 Apriori算法（6）,Apriori算法的时间复杂度主要受如下因素影响：（1）事务集合（2）最小支持度阈值（3）最小置信度阈值,34,6.2.3 Apriori算法（7）,Apriori算法的时间复杂度分析如下：（1）频繁项集产生产生频繁1-项集（(1 )和(2 )）：需要扫描一次事务集合，更新每个

20、事务中每个项的支持计数，并判断所有项是否是频繁1-项集，所以时间开销为O(nw)。产生候选k-项集（(3.1 )）：最坏情况下，连接需要比较O(|Lk-1|2)对频繁(k-1)-项集，每一对需要比较k-2次，时间开销为O(k-2)|Lk-1|2)。如果Hash树在候选产生时构造，在最大深度为k的Hash树上散列|Ck|个候选k-项集，时间开销为O(k|Ck|)。剪枝需要在Hash树上判断每个候选k-项集的k-2个子集是否是频繁(k-1)-项集，时间开销为O(k-1)(k-2) |Ck|)。产生频繁k-项集（(3.2 )和(3.3 )）：最坏情况下，支持计数（(3.2 )）需要扫描一次事务集

21、合，每个事务有个k-项集，每个k-项集在最大深度为k的Hash树上散列，时间开销为。产生频繁k-项集（(3.3 )）的时间开销为O(|Ck|)。,35,6.2.3 Apriori算法（8）,（2）规则产生频繁项集共有个，每个频繁k-项集有k个1-后件，连接产生所有j-后件时需要次比较，所以规则产生的时间开销为,36,6.3 频繁项集的紧凑表示 6.3.1 最大频繁项集（1）,最大频繁项集：如果一个频繁项集的所有直接超集都不是频繁项集，则该频繁项集称为最大频繁项集。图6.4 最大频繁项集,37,6.3.1 最大频繁项集（2）,最大频繁项集集合是频繁项集集合的紧凑表示，由最大频繁项集

22、可以推导所有频繁项集。例如，在图6.4中，由最大频繁项集ad可以推导频繁项集a、d和ad，由bcd可以推导b、c、d、bc、bd、cd和bcd。寻找最大频繁项集的搜索策略：一般到特殊与特殊到一般等价类宽度优先与深度优先,38,6.3.1 最大频繁项集（3）,(a) (b) 图6.5 搜索树,39,6.3.1 最大频繁项集（4）,图6.6 深度优先与最大频繁项集搜索,40,6.3.2 频繁闭项集（1）,闭项集：如果一个项集的所有直接超集的支持计数都不等于该项集的支持计数，则该项集称为闭项集。频繁闭项集：如果一个项集是频繁项集并且是闭项集，则该项集称为频繁闭项集。,41,6.3.2 频

23、繁闭项集（2）,图6.7 闭项集和频繁闭项集,42,6.3.2 频繁闭项集（3）,定理6.3 对于频繁项集l及其所有直接超集li=li(iI)，如果l是最大频繁项集，则l是频繁闭项集。证明：sup_count(l) nmin_sup 证毕。根据定理6.3，最大频繁项集是频繁闭项集的子集，所以由频繁闭项集同样可以推导所有频繁项集。,43,6.3.2 频繁闭项集（4）,图6.8 频繁项集、频繁闭项集与最大频繁项集,44,6.3.2 频繁闭项集（5）,定理6.4 对于频繁项集l及其所有直接超集li=li(iI)，如果l不是闭项集，则。证明：证毕。根据定理6.4，可以通过频繁闭项集的支持计数确定

24、其它频繁非闭项集的支持计数。例如，在图6.7中，项集c不是闭项集，它的支持计数等于项集bc的支持计数。,45,6.3.2 频繁闭项集（6）,通过频繁闭项集的支持计数计算其它频繁非闭项集的支持计数的算法。算法：Cac_sup_count算法输入：频繁闭项集集合CL 输出：频繁项集集合L 步骤：（1） /找出频繁闭项集的最大长度（2） /找出最长频繁闭项集（3） /最长频繁闭项集也是最长频繁项集,46,6.3.2 频繁闭项集（7）,（4）for (k=kmax-1；k1；k-) /找出所有频繁项集（4.1） /找出由频繁闭(k+1)-项集推导的频繁k-项集（4.2）CLk=l|lC

25、L,|l|=k /找出频繁闭k-项集（4.3）for TLk中每个项集l /计算频繁非闭k-项集的支持计数（4.3.1）if thenLk= Lkl （4.4） Lk= LkCLk （4.5）L=LLk,47,6.3.2 频繁闭项集（8）,例 6.3 在图6.7中，如果最小支持计数阈值是5，那么项集b:9、ad:5、bc:7、bd:6和bcd:5是频繁闭项集。写出计算频繁非闭项集的支持计数的过程。 L3 = CL3 = bcd TL2 = bc,bd,cdCL2 = ad,bc,bdcd.sup_count = bcd.sup_count = 5L2 = ad,bc,bd,cd TL1 =

26、 a,b,c,dCL1 = ba.sup_count = ad.sup_count = 5c.sup_count = bc.sup_count = 7d.sup_count = bd.sup_count = 6L1 = a,b,c,d,48,6.4 FP-growth算法,FP-growth算法采用一种称为FP树的结构表示事务集合中项集的关联，并在FP树上递归地找出所有频繁项集。 FP-growth算法的基本思想是：扫描一次事务集合，找出频繁1-项集合L；基于L，再扫描一次事务集合，构造表示事务集合中项集关联的FP树；在FP树上递归地找出所有频繁项集。最后在所有频繁项集中产生强关联规则

27、。,49,6.4.1 FP树构造（1）,FP树是事务集合中项集关联的压缩表示，其构造方法如下： 1）扫描一次事务集合，找出频繁1-项集合L，并按支持计数降序排序L中的频繁项。 2）创建FP树的根节点，用“null”标记。 3）再扫描一次事务集合，对每个事务找出其中的频繁项并按L中的顺序排序，为每个事务创建一个分枝，事务分枝路径上的节点就是该事务中的已排序频繁项。对于各个事务分枝，如果可以共享路径则共享并且在各个节点上记录共享事务数目。 4）为方便遍历FP树，为FP树创建一个项表，项表中每一行表示一个频繁项，并有一个指针指向它在FP树中的节点，FP树中相同频繁项的节点通过指针连成链表。,50,6

28、.4.1 FP树构造（2）,例6.4 假设事务集合T如表6.1所示，最小支持度阈值min_sup为20%。写出构造FP树的过程。首先，扫描一次事务集合，找出频繁1-项集合L，并按支持计数降序排序L中的频繁项，即L=i2:7, i1:6, i3:5, i4:2, i5:2。其次，基于L，再扫描一次事务集合，构造FP树。,51,6.4.1 FP树构造（3）,图6.9 创建t1分枝后的FP树,52,6.4.1 FP树构造（4）,图6.10 创建t2分枝后的FP树,53,6.4.1 FP树构造（5）,图6.11 创建所有事务分枝后的FP树,54,6.4.2 频繁项集产生（1）,在FP树上递归地找出

29、所有频繁项集就是在后缀模式的条件FP树上（初始时，=null，null的条件FP树就是FP树）递归地搜索频繁项集，即： 1）如果条件FP树只有一个分枝，则分枝路径上的节点的一个组合就是一个前缀模式，一个前缀模式与后缀模式产生一个频繁项集（递归出口）； 2）否则首先通过添加条件FP树中的一个项增长后缀模式（null增长为频繁1-项集，即=i=i，其中i为FP树中的频繁项，并且首先考虑的是L中的最后一项而不是第一项，其原因随着我们解释整个过程就会清楚），然后构造后缀模式的条件模式基与条件FP树，最后递归上述过程（递归）。当后缀模式增长为i时，i的条件模式基是的条件FP树中，从根节点到i节点的前缀

30、路径集合，并且前缀路径上的节点的支持计数根据i的支持计数得到更新。i的条件FP树是其条件模式基中，满足最小支持度阈值的节点构成的树。,55,6.4.2 频繁项集产生（2）,例6.5 考虑例6.4。写出后缀模式i5:2的条件模式基与条件FP树。因为i5:2是由null增长得到，所以i5:2的条件模式基为null,i2,i1:2。因为所有节点的支持计数满足最小支持度阈值，所以i5:2的条件FP树如图6.12所示，记为。,56,6.4.2 频繁项集产生（3）,图6.12 i5:2的条件FP树,57,6.4.2 频繁项集产生（4）,例6.6 考虑例6.4。写出在FP树上递归地找出所有频繁项集的过程

31、。第一层递归：=null，因为null的条件FP树即FP树有多个分枝，所以进入第二层递归。,58,6.4.2 频繁项集产生（5）,59,6.4.3 FP-growth算法（1）,算法：FP-growth算法输入：事务集合T，最小支持度阈值min_sup，最小置信度阈值min_conf 输出：强关联规则集合R_S 步骤：（1）扫描T找出频繁1-项集合L （2）L中的项按支持计数降序排序（3）创建FP树的根节点null /创建FP树（4）for T中的每个事务t （4.1）找出t中的频繁1-项集合Lt （4.2）Lt中的项按L中的顺序排序（4.3）Insert-FP（Lt, null）

32、 /创建事务分枝（5）L_S=Search-FP（FP, null） /找出所有频繁项集（6）在L_S中产生强关联规则集合R_S,60,6.4.3 FP-growth算法（2）,算法：Insert-FP算法（Li, Tr）输入：已排序频繁1-项集合Li，FP（子）树的根节点Tr 输出：FP树步骤：（1）if Li不空 then （1.1）取出Li中的第1个项i （1.2）if Tr的某个子节点Node是i then （1.2.1）Node.count=Node.count+1 （1.3）else （1.3.1）创建Tr的子节点Node为i （1.3.2）Node.count=1 （1

33、.3.3）将Node加入项表链中（1.4）Insert-FP（Li-i, Node）,61,6.4.3 FP-growth算法（3）,算法：Search-FP算法（T，）输入：（条件）FP树T，后缀模式输出：频繁项集集合L_S 步骤：（1）if T中只有一个分枝P then （1.1）for P上的节点的每个组合（1.1.1）= /产生频繁项集（1.1.2）L_S= L_S （2）else （2.1）for T中的每个频繁项i （2.1.1）=i /增长后缀模式（2.1.2）构造的条件模式基及其条件FP树T （2.1.3） Search-FP（T, ）,62,6.5 本章小结,本章介绍了关联分析，并着重介绍了单层单维布尔项集模式关联规则挖掘的两个算法：Apriori算法与FP-growth算法。 Apriori算法采用逐层搜索策略，通过产生候选项集的方式，产生频繁项集，同时根据Apriori性质压缩搜索空间，提高搜索效率。 FP-growth算法不产生候选项集，而是构造FP树压缩存储事务集合中的项集关联，然后在FP树上递归地找出所有频繁项集。为了提高关联规则挖掘算法的效率，本章介绍了最大频繁项集和频繁闭项集，它们可以推导所有频繁项集，从而不必产生所有频繁项集。,

展开阅读全文

数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者 王丽珍 周丽华 陈红梅 第6章.ppt

数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者王丽珍周丽华陈红梅第6章.ppt