1、文库下载 免费文档下载http:/ APRIORI 性质的多维关联规则挖掘算法的研究超清晰论文VoI.20ApriINo.22003安徽工业大学学报 J.ofAnhuiUniversityofTechnoIogy第 20 卷第 2 期 2003 年4 月文章编号:1671-7872(2003)02-0141-04一种基于 APRIORI 性质的多维关联规则挖掘算法的研究秦锋,杨学兵(安徽工业大学计算机学院,安徽马鞍山 243002)摘要:Apriori 算法是一种找频繁项集的基本算法,它常常被用于单维关联规则的挖掘,本文在对数据立方体的组织结构以及 Apriori 算法包括它的一些变形算法进行
2、了深入研究的基文库下载 免费文档下载http:/ KDD(KnowIedgeDiscoverinDatabases)是目前人工智能和数据库相交叉的一个热门研究领域,越来越多的关注。数据挖掘(DataMining,简称 DM)是 KDD 的一个十分重要的步骤,其内容涉及各种知识模式的提取算法。关联规则是数据库中存在的一种十分有用的知识模式,其挖掘算法已得到了较为广泛的重(Muti-DimensionaIDataCube)视和研究,并取得了较大的进展。另外,多维数据分析、多文库下载 免费文档下载http:/ Apriori 算 Apriori 算法是一种找频繁项集的基本算法,(singIe-dim
3、ensionaIruIes)的挖掘,法进行改进,大大提高了原算法的效率。这些算法被用于单维关联规则而对于多维关联规则的挖掘并不有效,为此作者提出了一种基于 Apriori 性质的适用于多维关联规则挖掘的算法。1 概念1.1 关联规则关联规则概念首先由 R.AgrawaI 等于 1993 年提出。所谓关联规则,是指客体之间的相互关系。关联规收稿日期:2002-11-05(2002KJ046)基金项目:安徽省教育厅科研经费资助(1962-) ,男,安徽和县人,安徽工业大学计算机学院副教授,硕士,主要研究方向为人工智能、机器学作者简介:秦锋习。142安徽工业大学学报 2003 年文库下载 免费文档下
4、载http:/ B1,B2,Bj 倾向于同 A1/A2/Ai-B1/B2/Bj,(4%,70%)客体 A1,A2,Ai 一起出现。其中 4%为关联规http:/ 则的支持度,70%为关联规则的信任度。1.2Apriori 性质需要多遍扫描事务数据库,为了提高频繁项目集的产生效率,可利用一 Apriori 算法采用的是迭代方法,个重要的 Apriori 性质来减少项目搜索空间。Apriori 性质就是一个频繁项目集的所有非空子集必需也是频繁项目集。这一性质是由Agrawal 和 Srikant 提出并证明的。根据这一性质,进行第 遍扫描之前,可先产生候选集 C ,C 可以分两步来产生,设前一步(
5、第 -1 步)已生成( -1)-频繁集 L -1,则首先可以通过对 L -1 中的成员进行联接来产生候选,L -1 中的两个成员即:必需满足在两个成员的项目中有 -2 个项目是相同的这个条件方可联接,C =L -1!L -1=A!BIA,BcL -1,IAnBI= -2接着,再从 C 中删除所有包含不是频繁的( -1)-子集的成员项目集即可。1.3 数据立方体数据立方体是指含有多维属性的统计实体,设为 I 维,每维共有 IdiI 1 个值,其中 IdiI 是指第 I 维中共 IdiI 1 个不同值。互不相同的属性值,每维中再加上一个 Any 值,假设存在一个 I 维空文库下载 免费文档下载ht
6、tp:/ I 维空间中的点,这个点称之为方格,每个方格内存贮了与其对应的各属性的值同时出现的次数,用 count 表示。2 算法描述给出一个用 Apriori 改进的算法,它使用 Apriori 性质进行候选集的生成。(算法 1)使用 Aprior 性质的维间频繁集生成算法输入:?一个 I 维的数据立方体 CBd1,dI?最小支持度:min_sup 输出:I 维间的频繁项目集 L(1) =1;L=!;(2)对于每一维,生成 1-itemset 候选集C1,di=di 维中所有互不相同的取值,C1=Ui=1Chttp:/ 1-itemset 频繁项目集 L1=gen_freguent(1,C1)
7、;(4)Repeat= 1;生成 -itemsets 候选集 C =gen_candidate( ,L -1);生成 k-itemsets 频繁集文库下载 免费文档下载http:/ ;UntilL =!;函数 gen_freguent( ,C ),从候选集 C 中生成频繁项目集 L Functiongen_freguent( ,C )L =!;foreachcandidateI=i1,i2,.,i GC dofreguency= 维立方体空间中的方格(i1,i2,.,i )中的 count 值support=freguency/totalcount;if(supportmin_supp)the
8、n/I 是一个频繁项目集 L =L UI;第 2 期秦锋等:一种基于 APRIORI 性质的多维关联规则挖掘算法的研究 l43(I-l)函数 gen_candidate(I,LI-l),从频繁项目集中生成 I-itemset 候选集 CIFunctiongen_candidate(I,LI-l)CI=!;foreachitemllGLI-lforeachiteml2GLI-l文库下载 免费文档下载http:/ 与 I2 有 I-2 个相同的项目,并且最后一个项目分别来自不同的维)thenc=ll!l2ifc 有非频繁的(I-l)子集,then删除 celse 将 c 加入到 CI 中retur
9、nCI基本工作原理:根据 Apriori 性质,算法首先找出所有的 l-itemsets 频繁项目集 Ll,然后陆续找出 I-itemsets 频繁项目集 LI。算法是通过 LI-l!LI-l 连接http:/ 操作来生成 I-itemsets 的候选集 CI。对于每一个 I-检查在 I-维立方体中与之相应的方格,根据数据立方体的定义,保存在每个方格中的 itemsets 候选 IGCI,count 值是从原始数据中来的一个统计值,所以它能准确反映出这个项目集的出现频次,将它与最小支持度作比较,将符合要求的放入 LI 中。算法 l 是使用了 Apriori 性质来生成和修剪候选集的,其总的连接
10、和检查子集所需时间为:IZ(ILI=2I-l!LI-lIX(I-2)文库下载 免费文档下载http:/ 性质的算法 l 较为有效,集的长度,从而降低了支持度的计算时间。但如果数据立方体很密,则连接和修剪所花时间较大,尤其是在数据立方体非常密时,花很长时间进行的连接和修剪却往往不能明显减少候选集的大小,此时用这种方法就会得不偿失。3 实验实验的目的是通过对不同大小、不同数据密度以及不同维数的立方体进行实验来对上述算法的性能进行分析。实验以 SOLServer7.0 作为平台。分别选择 2 维、3 维、4 维构建相应维的稀松和密质数据立方体,设 I 是数据立方体的维数,di 是第 i 维,IdiI
11、 指第 i 维 di 的长度,即 di 维中互不相同的取值个数,那么可通过下式来计算数据立方体的大小和密度:立方体大小=HIdiIIi=l文库下载 免费文档下载http:/ 3 种数据立方体的一些信息,具体见表 l。根据表 l 中 http:/ 的信息可以看出这 3 个数据立方体都是稀松的,用算法 l 对这几个数据立方体进行挖掘,并分别用0.5%,图 l 中的实线显示了各种情况 0.7%,l.0%和 l.l%这几种不同的最小支持度来进行实验,144 的执行时间。安徽工业大学学报 2003 年表 1 实验 4 中用到的各维的稀松数据立方体信息表立方体 2 维立方体 3 维立方体 4 维立方体立方
12、体大小37532149671251707733立方体密度 3.3X10-27.9X10-46.0X10-5下面再看看算法 1 对密质立方体的执行情况:类似于上述实验,先分别建立 2 维、3 维和 4维密质数据立方体,表 2 是我们计算并记录的几个数据立方体的一些情况。文库下载 免费文档下载http:/ 3 个数据立方体都是非常密质的数据立方体,同样用算法 1 对这几个数据立方体进行挖掘,并分别用 1.1%,1.0%,0.7%和 0.5%这几种最小支持度来进行测试,图 1 中虚线显示了测试结果。实验分析:从图 1 可以看出,对于 2 维数据立方体,不同的最小支持度,算法 1 对稀松和密质 2种数
13、据立方体的执行时间几乎没有什么区别,而对于 3 维和 4 维数据立方体则存在着明显的区别。从图 1 中两对曲线可以看出,算法 1 对稀松数据立方体的挖掘性能明显优于密质数据立方体的挖掘性能。之所以如此是因为当数据立方体很稀松时,使用 Apriori 性质能修剪掉很多候选,因而减少了计算支持度时所消耗的时间。而对于密质数据立方体,如何设计出更有效的挖掘算法,需要进一步的研究。参考文献:1AgrawalR,ImielinskiT,SwamiA.Miningassociationrules表 2 实验 4 用密质数据立方体信息表立方体立方体大小 2 维立方体 1173 维立方体 510914 维立方
14、体 296291立方体密度0.710.360.18图 1 算法 1挖掘稀松立方体和密质立方体的性能比较betwehttp:/ 免费文档下载http:/ 北京:电子工业出版社,1998.3GrayJ,ChaudhuriS,BosworthA,etal.Datacube:arelationalaggregationoperatorgeneralizinggroup-by,cross-tab,andsub-totalsJ.DataMiningandKnowledgeDiscovery,1997,1(1):29-53.(10)4裴健,柴玮,唐世渭,等,联机分析处理数据立方体代数J.软件学报,1999,
15、6:561-569.5欧阳为民,(10);蔡庆生.发现广义序贯模式的增量式更新技术J.软件学报,1998,777-780.6Oinfeng,Yangxue-bing.AhighefficientalgorithmofminingseguentialpatternsC.InProc3thWorldCongressonIntelligentControlandAutomation,2000.3750-3752.一种基于 APRIORI 性质的多维关联规则挖掘算法的研究作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:秦锋, 杨学兵安徽工业大学计算机学院,安徽,马鞍山,243002安徽工业大
16、学学报(自然科学版)JOURNAL OF ANHUI UNIVERSITY OF TECHNOLOGY(NATURAL SCIENCE)2003,20(2)4 次文库下载 免费文档下载http:/ 条)1.Agrahttp:/ R;Imielinski T;Swami A Mining association rulesbetween sets of items in large databases 19932.Joyce Bischoff;Ted Alexander;成栋;魏立原 数据仓库技术 19983.Gray J;Chaudhuri S;Bosworth A Data cube:a r
17、elational aggregation operator generalizing group- by,cross-tab,andsub -totals 1997(01)4.裴健;柴玮;唐世渭 联机分析处理数据立方体代数期刊论文-软件学报 1999(06)5.欧阳为民;蔡庆生 发现广义序贯模式的增量式更新技术期刊论文-软件学报 1998(10)6.Qin Feng;Yang xue -bing A high efficient algorithm of mining sequential patterns外文会议 2000本文读者也读过(10 条)1. 杨学兵 一种高效的多维关联规则挖掘算
18、法研究期刊论文-微机发展 2002,12(6)2. 吴建兰 基于数据仓库的教学质量监控系统联机分析与主题挖掘算法的研究与实现学位论文20053. 蔡国强 多维关联规则挖掘的研究学位论文20024. 裴芳 基于关联规则的数据挖掘技术在教学管理系统中的应用学位论文2005文库下载 免费文档下载http:/ 高坚 基于免疫遗传算法的多维关联规则挖掘期刊论文-计算机工程与应用 2003,39(32)6. 宋国杰.范明 一种多维关联规则挖掘的模型与算法会议论文-20017. 闫禹.YAN Yu 多维频繁项集计算方法及应用期刊论文-沈阳师范大学学报(自然科学版)2005,23(4)8. 绳英英.闫仁武.王
19、加民.李佳.SHENG Ying-ying.YAN Ren-wu.WAhttp:/ Jia-min.LI Jia 基于 Apriori 算法的多维关联规则挖掘研究期刊论文-科学技术与工程 2009,9(7)9. 石鹏 .宇仁德 .刘芳.SHI Peng.YU Ren-de.LIU Fang 基于 Apriori 算法的交通事故关联规则挖掘期刊论文-农业装备与车辆工程 2009(2)10. 穆云婷.谢文阁.MU Yun-ting.XIE Wen-ge 基于 FP-Growth 算法的多维关联规则挖掘方法期刊论文-辽宁工业大学学报 2010,30(2)引证文献(4 条)1.王敏 一种基于位图矩阵技术的多维关联规则改进算法期刊论文-赣南师范学院学报 2010(3)2.曾志勇 基于星型模型的关联规则挖掘方法期刊论文-现代计算机(专业版) 2007(11)3.赵永尊 基于品类信息的关联规则挖掘算法及其应用学位论文硕士 20064.崔宇 基于数据立方体和钻取技术的多维关联规则挖掘方法的研究学位论文硕士 2004本文链接:http:/ 免费文档下载http:/ 文档,专业文献,应用文书,行业论文等文档搜索与文档下载,是您文档写作和查找参考资料的必备网站。文库下载 http:/