ImageVerifierCode 换一换
格式:PPT , 页数:156 ,大小:8.02MB ,
资源ID:773816      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-773816.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2(课件)关联规则挖掘与序列模式挖掘(-apriori--aprioritid--apriorihyrid---fp-tree-aprioriall).ppt)为本站会员(无敌)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

2(课件)关联规则挖掘与序列模式挖掘(-apriori--aprioritid--apriorihyrid---fp-tree-aprioriall).ppt

1、关联规则挖掘与序列模式挖掘,从推荐系统(recommender system)说起,频繁项集,关联规则,关联规则挖掘的兴起,1993年,Agrawal提出了关联规则(Association Rule)问题,旨在发现顾客购货篮内商品间令人感兴趣的关系。“啤酒和尿布” 沃尔玛利用NCR数据挖掘工具意外的发现:跟尿布一起购买最多的商品竟是啤酒!今天,关联规则已广泛应用于金融、营销以及生物信息学等领域。,主要内容,关联规则的基本概念 Apriori算法改进的Apriori算法(AprioriTid、AprioriHybrid)FP-Tree算法基于多最小支持度的关联规则挖掘( MSapriori 算法

2、)多层、多维、约束性关联规则挖掘问题关联规则的评价问题,关联规则挖掘的动机,发现数据内在的关系哪些商品往往被一起购买啤酒尿布买了PC机之后,还会购买哪些商品哪些DNA对新药较为敏感,什么是关联规则,关联规则是寻找给定的数据集中项目之间令人感兴趣的关系,购物栏数据库,例子,Diaper Beer,Milk, Bread Eggs,Coke,Beer, Bread Milk,蕴含并不是因果关系,频繁项集,项集一个或多个项目的集合。例如: Milk, Bread, Diaper包含k 个项目的项集称为k-项集绝对支持度 ()某一项集出现的次数比如 (Milk, Bread,Diaper) = 2 相

3、对支持度包含某一项集的事务在全体事务中的比例。比如. s(Milk, Bread, Diaper) = 2/5频繁项集支持度不小于给定最小支持度阈值(minsup)的项集,关联规则,关联规则形如 X Y的蕴涵式, 其中 X 和Y是项集,且XY=。比如: Milk, Diaper Beer 规则评价参数支持度 (s)同时包含X和Y的事务占全部事务的百分比可信度 (c)包含项集X的事务中也包含Y的百分比,Example:,关联规则挖掘的一般流程,找出满足最小支持度阈值的所有频繁项集。 由频繁项集产生满足最小可信度阈值的强关联规则。 这两步中,第二步较容易。关联规则挖掘的总体性能由第一步决定。,频繁

4、项集的生成-1,给定d 个项目,可以生成 2d 候选项集,频繁项集的生成-2,频繁项集格中每个项集都作为候选频繁项集扫描数据库,计算每个候选集的支持度复杂度 O(NMw) = Expensive since M = 2d !,计算复杂度,假设存在 d 个不同的项目:项集总数= 2d规则总数:,d=6, R = 602,频繁项集的生成策略,减少候选项集的个数 (M)利用各种剪枝方法减少M减少事务的个数 (N)随着项集维度的增加,不断减少N的数目减少比较的次数 (NM)使用新颖的数据结构存储事务/项集无需在每个事务中匹配每个项集,主要内容,关联规则的基本概念 Apriori算法改进的Apriori

5、算法(AprioriTid、AprioriHybrid)FP-Tree算法基于多最小支持度的关联规则挖掘( MSapriori 算法)多层、多维、约束性关联规则挖掘问题关联规则的评价问题,Apriori性质-1,Agrawal R, Srikant R. Fast algorithms for mining association rules. (VLDB94). Apriori 性质:频繁项集的所有非空子集都必须也是频繁的。 Apriori 性质成立的原因:项集的支持度不超过其子集的支持度,即支持度的反单调性。,Apriori性质-2,Pruned supersets,Apriori算法-1

6、,扫描数据库,找出1-频繁项集连接k-频繁项集生成 (k+1)-候选项集在数据库中验证候选集是否频繁当没有候选集或频繁项集生成时结束,Apriori算法-2,Pseudo-code:Ck: Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count

7、of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support endreturn k Lk;,规则生成-1,给定频繁项集L, 找出所有非空的f L使得f L f 满足最小可信度阈值如 A,B,C,D 为频繁项集, 候选规则有: ABC D, ABD C, ACD B, BCD A, A BCD,B ACD,C ABD, D ABCAB CD,AC BD, AD BC, BC AD, BD AC, CD AB,若|L| = k, 则存在2k 2个候选关联规则,规则生成-2,

8、可信度一般不满足反单调性c(ABC D) 可以比 c(AB D)大,也可以比c(AB D)小定理. 若规则 X Y-X 不满足最小可信度阈值,则规则 X Y-X,X X,也不满足最小可信度阈值。比如, L = A,B,C,D: c(ABC D) c(AB CD) c(A BCD),规则生成-3:,Apriori算法使用一种逐层方法来产生关联规则,其中每层对应规则后件中的项数。算法首先提取规则后件只含一个项的所有高置信度规则,然后使用这些规则来产生新的候选规则。例如使用abcb和abdc来产生候选规则adbc。,规则生成-4,合并结论中具有共同前缀的规则,生成候选规则连接(CD=AB,BD=AC

9、)生成候选规则 D = ABC若AD=BC 的可信度未 超过最小可信度阈值则删去 D=ABC,规则生成-5,Lattice of rules,Low Confidence Rule,小结,Apriori算法是挖掘频繁项集中最具有影响力的算法。算法有两步骤:一是发现所有的频繁项集;二是生成强关联规则。发现频繁项集是关联规则挖掘中的关键步骤。在Apriori算法中利用“频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集”这一个性质有效的对频繁项集进行修剪。,小结,算法核心思想:给定一个数据库,第一次扫描数据库,搜索出所有支持度大于等于最小支持度的项集组成频繁1-项集即为L1,由L1连接得到候选

10、1-项集C1;第二次扫描数据库,搜索出C1中所有支持度大于等于最小支持度的项集组成频繁2-项集即为L2 ,由L2连接得到候选2-项集C2;同理第k次扫描数据库,搜索出Ck-1 中所有支持度大于等于最小支持度的项集组成频繁k-项集即为Lk,由Lk连接得到候选k-项集Ck,直到没有新的候选集产生为止。,小结,Apriori算法需扫描数据库的次数等于最大频繁项集的项数。Apriori算法有两个致命的性能瓶颈: 1.产生的候选集过大(尤其是2-项集),算法必须耗费大量的时间处理候选项集 2. 多次扫描数据库,需要很大的1/0负载,在时间、空间上都需要付出很大的代价。,频繁模式挖掘的挑战,挑战多次扫描事

11、务数据库巨大数量的候选项集繁重的计算候选项集的支持度工作改进 Apriori: 大体的思路减少事务数据库的扫描次数缩减候选项集的数量使候选项集的支持度计算更加方便,主要内容,关联规则的基本概念 Apriori算法改进的Apriori算法(AprioriTid、AprioriHybrid)FP-Tree算法基于多最小支持度的关联规则挖掘( MSapriori 算法)多层、多维、约束性关联规则挖掘问题关联规则的评价问题,AprioriTid算法,Apriori vs. AprioriTid-1,缺点:内存要求很大,事务过多的时候资源难以满足。,Apriori vs. AprioriTid-2,最初

12、几遍扫描数据库时,Apriori的性能优于AprioriTid;而从某次扫描数据库开始, AprioriTid 的性能优于Apriori为什么?,AprioriHybrid算法-1,Agrawal R, Srikant R. Fast algorithms for mining association rules. (VLDB94).开始使用Apriori算法当能够调入内存时,开始使用AprioriTid算法,AprioriHybrid算法-2,主要内容,关联规则的基本概念 Apriori算法改进的Apriori算法(AprioriTid、AprioriHybrid)FP-Tree算法基于多最

13、小支持度的关联规则挖掘( MSapriori 算法)多层、多维、约束性关联规则挖掘问题关联规则的评价问题,Apriori算法的瓶颈,候选验证的挖掘方式存在以下问题:多次扫描数据库I/O代价较高挖掘长的频繁项集将产生大量的候选项集如挖掘 i1i2i100扫描数据的次数: 100候选项集的数量: 能否不产生候选项集?,FP-Growth算法,J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. SIGMOD 00.FP-growth算法是深度优先算法中最新最高效的且从本质上不同于Apri

14、ori算法的经典算法 将数据库的信息压缩成一个描述频繁项相关信息的频繁模式树 在算法中有两个关键步骤: 一是生成频繁模式树FP-tree; 二是在频繁模式树FP-tree上挖掘频繁项集,2018/4/22,43,利用FP-树进行频繁模式挖掘,思想: 频繁模式增长递归地增长频繁模式方法 对每个频繁项,构建它的条件模式基,然后构建它的条件FP-树.对每个新创建的条件FP-树重复上述过程直至结果FP-树为空,或者它仅包含一个单一路径.该路径将生成其所有的子路径的组合,每个组合都是一个频繁模式.,FP-Tree(不产生频繁候选集),FP-Tree增长算法的步骤: (1) 建立 FP-tree树扫描数据

15、库一次,找出频繁1-项集,按递减顺序排序。再一次扫描数据库,建立FP-tree 。(2) 利用FP-tree挖掘频繁集对于每一个项,先构造条件模式基,然后构造条件FP-树。 在每一个新创建的条件FP-树上重复此过程。 直到结果FP-树为空,或只包含一条路径 。,COMP537,44,例1,FP-Growth算法步骤,例2,例3,COMP537,59,Step 1: 遍历一次数据库,导出频繁项(1项集)的集合和支持度计数(频率),并且以降序排序。Step 2: 构造FP-treeStep 3: 根据第二步得到的FP-Tree, 为1项频繁项集中的每一项构造条件FP-Tree.Step 4: 得到

16、频繁模式(频繁项集).,FP-tree,频繁项集的挖掘(FP树的挖掘),COMP537,60,问题: 找到所有的满足最小支持度(阈值)的频繁项集(min_Support=3),COMP537,61,Threshold = 3,4,COMP537,62,Threshold = 3,4,4,COMP537,63,Threshold = 3,4,4,1,3,3,3,3,1,1,1,1,COMP537,64,Threshold = 3,4,4,1,3,3,3,3,1,1,1,1,a, b, d, e, f, g,a, f, g,b, d, e, f,a, b, d,a, b, e, g,FP-tree

17、,COMP537,65,Step 1: 遍历一次数据库,导出频繁项(1项集)的集合和支持度计数(频率),并且以降序排序,结果集或表记为L。Step 2: 构造FP-treeStep 3: 根据第二步得到的FP-Tree, 为1项频繁项集中的每一项构造条件FP-Tree.Step 4: 得到频繁模式(频繁项集).,FP-Tree,FP-Tree构造如下:首先,创建树的根节点,用“null”标记。其次,第二次扫描数据库D.每个数据库的项都按照L中的次序处理(即按照递减的支持度技术排序),并对每个事务数据创建一个分支。,COMP537,66,COMP537,67,Threshold = 3,a, b

18、, d, e, f, g,a, f, g,b, d, e, f,a, b, d,a, b, e, g,root,COMP537,68,Threshold = 3,a, b, d, e, f, g,a, f, g,b, d, e, f,a, b, d,a, b, e, g,root,a:1,b:1,d:1,e:1,f:1,g:1,a:2,COMP537,69,Threshold = 3,a, b, d, e, f, g,a, f, g,b, d, e, f,a, b, d,a, b, e, g,root,a:2,b:1,d:1,e:1,f:1,g:1,f:1,g:1,COMP537,70,Thr

19、eshold = 3,a, b, d, e, f, g,a, f, g,b, d, e, f,a, b, d,a, b, e, g,root,a:2,b:1,d:1,e:1,f:1,g:1,f:1,g:1,e:1,a:3,b:2,d:2,COMP537,71,Threshold = 3,a, b, d, e, f, g,a, f, g,b, d, e, f,a, b, d,a, b, e, g,root,a:3,b:2,d:2,e:1,f:1,g:1,f:1,g:1,b:1,d:1,e:1,f:1,a:4,b:3,COMP537,72,Threshold = 3,a, b, d, e, f,

20、g,a, f, g,b, d, e, f,a, b, d,a, b, e, g,root,a:4,b:3,d:2,e:1,f:1,g:1,e:1,g:1,f:1,g:1,b:1,d:1,e:1,f:1,FP-tree,COMP537,73,Step 1: 遍历一次数据库,导出频繁项(1项集)的集合和支持度计数(频率),并且以降序排序。Step 2: 构造FP-treeStep 3: 根据第二步得到的FP-Tree, 为1项频繁项集中的每一项构造条件FP-Tree.Step 4: 得到频繁模式(频繁项集).,FP-Tree,条件模式基:一个“子数据库”,由FP树中与该后缀模式一起出现的前缀路径集

21、组成。由长度为1的频繁模式开始,构造他的条件模式基(即从叶子节点开始)。,COMP537,74,COMP537,75,Threshold = 3,a, b, d, e, f, g,a, f, g,b, d, e, f,a, b, d,a, b, e, g,root,a:4,b:3,d:2,e:1,f:1,g:1,e:1,g:1,f:1,g:1,b:1,d:1,e:1,f:1,76,Threshold = 3,root,a:4,b:3,d:2,e:1,f:1,g:1,e:1,g:1,f:1,g:1,b:1,d:1,e:1,f:1,对于项 “g”构造条件FP-Tree, ,(a:1, b:1, d

22、:1, e:1, f:1, g:1),77,Threshold = 3,root,a:4,b:3,d:2,e:1,f:1,g:1,e:1,g:1,f:1,g:1,b:1,d:1,e:1,f:1,对于项 “g”构造条件FP-Tree, ,(a:1, b:1, d:1, e:1, f:1, g:1),(a:1, b:1, e:1, g:1),COMP537,78,Threshold = 3,root,a:4,b:3,d:2,e:1,f:1,g:1,e:1,g:1,f:1,g:1,b:1,d:1,e:1,f:1,Cond. FP-tree on “g”, ,(a:1, b:1, d:1, e:1,

23、f:1, g:1),(a:1, b:1, e:1, g:1),(a:1, f:1, g:1),3,COMP537,79,Threshold = 3,root,a:4,b:3,d:2,e:1,f:1,g:1,e:1,g:1,f:1,g:1,b:1,d:1,e:1,f:1,g-条件/FP-Tree, ,(a:1, b:1, d:1, e:1, f:1, g:1),(a:1, b:1, e:1, g:1),(a:1, f:1, g:1),3,2,1,2,2,3, ,(a:1, b:1,d:1,e:1,f:1),(a:1, b:1,e:1),(a:1, f:1),root,3,g-条件模式基,FP-t

24、ree,COMP537,80,Step 1: 遍历一次数据库,导出频繁项(1项集)的集合和支持度计数(频率),并且以降序排序。Step 2: 构造FP-treeStep 3: 根据第二步得到的FP-Tree, 为1项频繁项集中的每一项构造条件FP-Tree.Step 4: 得到频繁模式(频繁项集).,COMP537,81,Cond. FP-tree on “a”,root,root,a:3,Cond. FP-tree on “g”,root,Cond. FP-tree on “f”,root,b:3,Cond. FP-tree on “e”,root,b:3,Cond. FP-tree on

25、“d”,root,a:3,Cond. FP-tree on “b”,3,3,3,3,4,4,1. 构造g-条件的FP-Tree前:g (support = 3),2. 构造g-条件的FP-Tree后:a, g (support = 3),1. 构造f-条件的FP-Tree前:f (support = 3),2. 构造f-条件的FP-Tree后:Empty.,1. 构造e-条件的FP-Tree前:e (support = 3),2. 构造e-条件的FP-Tree后:b, e (support = 3),1. 构造d-条件的FP-Treel前:d (support = 3),2. 构造d-条件的F

26、P-Tree后:b, d (support = 3),1. 构造b-条件的FP-Tree前:b (support = 4),2. 构造b-条件的FP-Tree后:a, b (support = 3),1. 构造a-条件的FP-Tree前:a (support = 4),2. 构造a-条件的FP-Tree后:Empty,FP-Tree FP-Growth,FP-Growth算法的效率优于一般的类Apriori 算法,因为FP-Tree算法的整个过程只需要遍历两次事务数据库,并且把大量的数据压缩存储在树中,在时间与空间的开销都优于Apriori算法;缺点是需要使用条件模式基递归地构造FP-Tree

27、不仅占用大量的内存空间,而且一次迭代过程结束后,通常只能得到几个频繁模式,因此算法的效率有待进一步提高。,COMP537,82,主要内容,关联规则的基本概念 Apriori算法改进的Apriori算法(AprioriTid、AprioriHybrid)FP-Tree算法基于多最小支持度的关联规则挖掘( MSapriori 算法)多层、多维、约束性关联规则挖掘问题关联规则的评价问题,支持度的分布,大多数数据集中支持度的分布都不平衡,一个零售数据集中支持度的分布,支持度的分布,如何合理设置最小支持度阈值minsup?minsup过高, 可能会丢失稀有的、令人感兴趣的项目 (如,贵重商品或耐用品)。

28、minsup过低, 则计算开销过大,结果项集过多。使用单一的最小支持度效果不佳。,多最小支持度模型,每个项目都有一个最小支持度(Minimum Item Supports, MIS) 。通过为不同的项目提供不同的MIS值,用户可以表达对不同规则的不同支持度的需求。,规则的最小支持度,设MIS(i)代表项目i的MIS. 规则R的最小支持度阈值 minsup 是规则所包含项目的最小MIS。 规则 R: a1, a2, , ak ak+1, , ar 满足最小支持度阈值,若其实际的支持度min(MIS(a1), MIS(a2), , MIS(ar).,多最小支持度举例,MIS(Milk)=5%, M

29、IS(Coke) = 3%,MIS(Broccoli)=0.1%, MIS(Salmon)=0.5%MIS(Milk, Broccoli) = min (MIS(Milk), MIS(Broccoli) = 0.1%支持度不再满足反单调性假设: Support(Milk, Coke) = 1.5% 且Support(Milk, Coke, Broccoli) = 0.5%Milk,Coke 不频繁,但 Milk,Coke,Broccoli 频繁,MSapriori算法,按支持度升序排列项目e.g.: MIS(1) = 10% MIS(2) = 20% MIS(3) = 5% MIS(4) =

30、6% 顺序: 3, 4, 1, 2对Apriori进行修改:L1 : 1-频繁项集(支持度 minMIS(i))F1 : i | sup(i) MIS(i)C2 : 2-候选项集从F1,而不是L1中连接得到,举例,假设数据集包含100条事务,第一次扫描数据库得到如下项目的支持度: 3.count = 6, 4.count = 3, 1.count = 9, 2.count = 25. 则L1= 3, 1, 2, and F1 = 3, 2 由于4.count /n MIS(3) (= 5%),故L1 中不包含4。 由于1.count /n Wage: mean=$7/hr (overall m

31、ean = $9),量化属性的静态离散化,概念分层挖掘前离散化范围代替数值在关系数据库中, 查找所有的k-阶谓词的频繁集需要k次或k+1次表扫描数据立方体适合于挖掘n-维立方体对应的定点对应谓词从数据立方体挖掘速度更快,挖掘量化关联规则,动态离散化使挖掘规则的置信度和紧致度最大,2-D 量化关联规则: Aquan1 Aquan2 Acat以2-D网格对相邻关联规则聚类成更泛化的规则Example age(X, “34-35”) income(X, “30-50K”) buys(X, “high resolution TV”),基于约束的挖掘,数据挖掘是交互的过程自动从数据库中挖掘出所有的模式不

32、现实用户的引导下完成,需要用好约束才有可能基于约束的挖掘 用户提供约束,提示待发现的模式或规则形式可用的约束知识类型约束:分类和关联规则等 etc.数据约束: SQL-like 查询找出2008年10月1日卖出的球拍和球鞋维/层约束:和区域、价格、品牌、消费者类别相关.规则约束小额销售 (price $200).兴趣度约束:强规则 (min_support 3%, min_confidence 60%).,规则约束,两种类型规则约束规则的形式约束: 元规则引导约束挖掘 P(x, y) Q(x, w) takes(x, “database systems”). 实例:age(X,”3039”)i

33、ncome(X,”41k60k”)=buys(X,”office”)规则内容约束: 基于规则约束引导的挖掘规则中变量的期望的集合/子集联系、变量的初始化和聚集函数sum(LHS) 20 count(LHS) 3 sum(RHS) 10001-变量 vs. 2-变量约束 1-变量: 只在规则的单边形成约束. 2-变量: 在两边都形成约束sum(LHS) min(RHS) max(RHS) 喝麦片粥 40%, 66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球喝麦片粥学生的66.7%要高打篮球 = 不喝麦片粥 20%, 33.3%这个规则远比上面那个要精确,尽管支持度和置信度都要低

34、的多,对强关联规则的批评(2),例1:上述数据可以得出buys(X, “computer games”) = buys(X, “videos”) 40%, 60%但其实全部人中购买录像带的人数是75%,比60%多;事实上录像带和游戏是负相关的。由此可见A = B的置信度有欺骗性,它只是给出A,B条件概率的估计,而不度量A,B间蕴涵的实际强度。,置信度和支持度的失效,Example(Aggarwal & Yu, PODS98)5000名学生中3000 打蓝球3750吃稻米2000 既打篮球又吃稻米打篮球 吃稻米 40%, 66.7% 被误导了, 因为吃稻米的学生总数为 75% ,高于 66.7%

35、.打篮球 不吃稻米 20%, 33.3% 则更为精确, 尽管其支持度和置信度更低,Lift(提升度)作为相关度量,称规则AB的提升度大于1,A和B正相关,A的出现意味着B的出现等于1,A和B独立小于1,A和B负相关,A的出现以往着B的减少,感兴趣度的类型很多针对不同的应用,不同感兴趣度的效果不一样,兴趣度的度量列表,2018/4/22,120,序列模式挖掘简介,主要内容,关联规则挖掘与序列模式挖掘的区别序列模式的基本概念序列模式挖掘算法(AprioriAll),122,关联规则与序列模式,关联规则找出数据项目中所有的并发关系(即关联)。 比如:啤酒和尿布序列模式 找出数据项目中数据之间的顺序。

36、比如:用户访问某个网站各个网页的顺序。,123,关联规则挖掘提出背景,124,序列模式挖掘提出背景,主要内容,关联规则挖掘与序列模式挖掘的区别序列模式的基本概念序列模式挖掘算法(AprioriAll),序列模式挖掘,序列数据是由有序元素或事件的序列组成的,可以不包括具体的时间概念,序列数据的例子有客户购物序列、Web点击流和生物学序列等。这类数据处理的不是一个时间点上的数据,而是大量时间点上的数据,因而具有自身的特殊性。,1 序列模式挖掘概述,1.1 序列数据库,设I=i1,i2,in是所有项的集合,在购物篮例子中,每种商品就是一个项。项集是由项组成的一个非空集合。,定义1 事件(events

37、)是一个项集,在购物篮例子中,一个事件表示一个客户在特定商店的一次购物,一次购物可以购买多种商品,所以事件表示为(x1,x2,xq),其中xk(1kq)是I中的一个项,一个事件中所有项均不相同,每个事件可以有一个事件时间标识TID,也可以表示事件的顺序。,定义2 序列(sequence)是事件的有序列表,序列s记作,其中ej(1jl)表示事件,也称为s的元素。通常一个序列中的事件有时间先后关系,也就是说,ej(1jl)出现在ej+1之前。序列中的事件个数称为序列的长度,长度为k的序列称为k-序列。在有些算法中,将含有k个项的序列称为k-序列。,定义3 序列数据库(sequence databa

38、ses)S是元组的集合,其中SID是序列编号,s是一个序列,每个序列由若干事件构成。在序列数据库中每个序列的事件在时间或空间上是有序排列的。,交易数据库D,序列数据库S,定义4 对于序列t和s,如果t中每个有序元素都是s中一个有序元素的子集,则称t是s的子序列。形式化表述为,序列t=是序列s=的子序列,如果存在整数1j1是序列的子序列,因为2包含在1,2中,1,3包含在1,3,4中。而不是序列的子序列,因为前者中项2和项5是一次购买的,而后者中项2和项5是先后购买的,这就是区别所在。,定义5 如果一个序列s不包含在序列数据库S中的任何其他序列中,则称序列s为最大序列。,定义6 一个序列的支持度

39、计数是指在整个序列数据库S中包含的序列个数。即:supportS()=|(SID,s)| (SID,s)S 是s的子序列|其中,|表示集合中出现的次数。若序列的支持度计数不小于最小支持度阈值min_sup,则称之为频繁序列,又称为大序列,(最长的)频繁序列称为序列模式。长度为k的频繁序列称为频繁k-序列。,主要内容,关联规则挖掘与序列模式挖掘的区别序列模式的基本概念序列模式挖掘算法(AprioriAll),1.2 序列模式挖掘算法,1. 什么是序列模式挖掘,序列模式挖掘的问题定义为:给定一个客户交易数据库D以及最小支持度阈值min_sup,从中找出所有支持度计数不小于min_sup的序列,这些频繁序列也称为序列模式。有的算法还可以找出最大序列,即这些最大序列构成序列模式。,2 Apriori类算法,2.1 AprioriAll算法,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报