1、基于 Apriori 算法的关联规则挖掘研究关联规则是美国 IBMAlmadenResearchCenter 的RakeshAgrawal 等人于 1993 年提出的 KDD(knowledgediscoverindatabase)研究中的一个重要课题.关联规则可以基于以下三个方面进行分类:(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型.布尔型关联规则处理的值都是离散的,种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割;(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则.在单层
2、的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑;(3)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的.单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系.2.Apriori 算法论述最经典的关联规则挖掘算法为 Apriori 算法,该算法将关联规则的发现分为两步:第一步是识别所有的频繁项集 ,记为,即支持度不小于用户指定的最小支持度的项集,第二步从频繁项集中构造其置信度不低于用户给定置信度的规则.算法的执行时间主要在第一步,总体性能由第一步决定.为找,Apriori 使用
3、一种称为逐层搜索的迭代方法,首先通过.与自己连接产生候选 K.项集,记为 C,然后通过剪枝,剔除 C 中非频繁项集,得到 Lk.剪枝的依据基于Apriori 的两条基本性质 :性质 1:如果 X 是频繁项集,那么 X 的任何子集都频繁项集.性质 2:如果 X 是非频繁项集,那么 X 的任何超集都是非频繁项集.Apriori 的核心思想是 :L1=find_frequent_litemsets(D);for(k=2;Lk-l#;k+)Ck=apriori_gen(Lk-1,min_sup);foreachtransactiontDf/scanDforcountsforeachcandidateC
4、CtC.count+:Lk=cCklc.count:“min_supreturnL=t_JkLk;Apriori 使用一种称作逐层搜索的迭代算法,将 k.项集用于探索(k+1)一项集.首先 ,找出频繁 1.项集的集合,该集合记作 Ll.L1 用于找频繁 2.项集的集合 L2,而 L2 用于找 L3,如此下去,直到不能找到频繁 k.项集为止.找每个 Lk 需要一次数据库扫描.Apriori 算法中频繁项集挖掘实现模块图如图 1 所示.模块功能读入数据 Input0II 数据处理 Il 输出频繁项集 output现频繁 l-项集 L10ll 发现频繁 K-项集检验数据 Text()ll 发现后选
5、l-项集 Cl0Il 检验数据 Text0l 现后选 K-项集 cno图 1 频繁项集挖掘算法模块图Apriori 算法已证明是在大型数据库中挖掘关联规则的有效工具,但在实际应用中,还存在不足之处.(1)由于该算法在实际应用中常会产生大量用户不关心的规则.一般来说,用户在数据库中挖掘关联规则时,心里都会预先存在着一些自己感兴趣的规则.例如,对于一个存储商场销售记录的数据库,用户可能只想得到那些与电脑相关的商品的关联规则,而对牛奶面包记录不感兴趣.所以,这里的电脑就是用户感兴趣的项.利用这样的用户约束,我们就可以对数据库进行“缩小 一只有那些与用户感兴趣项有关的数据才被作为挖掘对象.(2)传统的
6、算法还存在着这样一个问题:它们仅仅考虑了被分析的项在数据库中出现的频率,而没有考虑不同的项具有不同的重要性这些项只是简单地被视为具有等同价值.这常常会导致那些具有重要价值但是出现频率相对较小的项被忽略.例如,一个商场每月会售出打印机墨盒一千作者简介:李庆红,女,湖南长沙人,本科,讲师,研究方向 :计算机网络,计算机应用.一6O 一个,但是售出的电脑只有 1 百台,在使用传统算法进行关联规则挖掘时,电脑就很可能被忽略.然而从总的销售金额来看,电脑远远超过了打印机墨盒,对此传统关联规则算法显得无能为力.所以有必要研究一种算法,针对数据库容量过大的问题,利用用户感兴趣的某些项有效地缩小挖掘范围:针对
7、被分析项具有不同重要性问题,采取将重要性量化的方法,综合考虑项的出现频率和重要性,给予不同的权值,提高关联规则的挖掘质量.本论文结合实例提出了一种基于兴趣项集的加权关联规则算法 IWA(1nterestset 算法.该算法希望_weightApriori)在改善挖掘质量方面做出一些尝试.3.IWA 算法的实际运用IWA 算法的过程大致可以分为以下四个步骤:(1)产生兴趣项扩展集,兴趣项扩展集(InterestingExpandedSet)就是由用户指定感兴趣的项目,由兴趣项以及数据库中与其相关联的项目构成兴趣项扩展集.(2)给兴趣项扩展集中的各项 H 赋以权值(Weight),权值是用于衡量被
8、分析项的重要性的个量化指标.(31 设t-DH 权支持度函数.(4 使用 Apriori 算法实施挖掘过程 .前面已经介绍,产生兴趣项扩展集的日的就是要缩小挖掘的范围,产生用户真正感兴趣的规则.如果用户在挖掘前已经明确地知道与自己感兴趣的项相关联的所有项,那么兴趣项扩展集就是这些项的集合.然而,在人多数情况 F,用户并不知道所有的这些项,而只是知道其中的一部分,例如,商场的经营者叮能会对电脑相关的则感兴趣,但是他并不能确定与电脑相关联的所有项,于是,需要有种方法能够找出与用户感兴趣的项相关联的所有项.下面,介绍利用事务标识号产生兴趣项扩展集的疗法 TidIES(InterestingExpan
9、dedSet).TidIES 的基本思想足:首先描遍数据库,得到所有项目的事务标识号.将用户指定的感兴趣的项放入兴趣项扩展集中,将该项的事务标号集上 j 数据库巾其余项的事务标号集进行交运算,如果交集不为空,则把该项目放入兴趣项扩展集中.次运算完成后,利=j 兴趣项扩展集中新项目再进行间样的一个过程,直至兴趣项扩展集中没有新项日产生为止.则兴趣项扩展集中的所有项目就是用户所需要的兴趣相关项.(1)给兴趣项扩展集中的元素赋以权值利用 Apriori 算法可以挖掘出很多有趣的规则 ,但它的前提是认为每个项目的重要性是相的.但实际生活中,往往存在这样的情况,用户对某些项 f很看重,对一些项目不太关注
10、,如果仍然采用 Apriori 算法,挖掘出来的结果也许不是用户想要的.而用户关心的项目因为出现频繁小而挖掘不到.所以有必要引入权值属性,为每个项目设置一个代表重要性的权值.比如利润较高的商品拥有的权值相对高一些.对于这类问题,权值设定的好坏直接影响到挖掘的结果.对于项目集合中的各个项目,除了可以主观地为其分配砰_孜禾 l,与饼权值外,大多数是按照项目的利润高低分配不同的权值.(2)设计加权支持度函数在产生频繁项集的过程中,需要计算每一项的支持度,然后把它们和用户给定的支持度阈值进行比较,大于支持度阂值的项集就是频繁项集.在 Apriori 算法中,计算支持度时只考虑了项集出现的频繁程度,而没
11、有考虑不同的项集具有不同的重要性这? 问题.因此 ,在计算项集的支持度时需要同时考虑项集的出现频度和重要性,这样产生出来的关联规则才会具有更大的科学性.为了在计算支持度时考虑项集的重要性,需要将项集的权值引入计算支持度的函数中.设 I=il,i2im是兴趣项扩展集,每个项都有一个权值之对应.它们的权值分别是wl,w2,wk(wi 【0,1】).我们用 Wx 表示兴趣项扩展集 I 的权值.目前,项集加权支持度设定方法一股有三种:1)最大值sup(x)=maxw,w2,wksup(x)21 平均值,占Wsup(x)=_1.1(乞 w,)sup(x)Ai=131 最小值Wxsup(x)=minwl,
12、W2,Wksup(x)(31IWA 算法示例该示例是基于表 1 的某电器商场事务数据库,数据库中有 5 个事务.该数据库涉及 7 个项目,其中 A:相机,B:电脑,C:光盘,D:电池,E:摄像头,F:手机,G:手机卡.表 1 商场事务数据库TidItems1ACD2BCE3ABCE4BE5FG得到兴趣项扩展集为B,A,C,D,E,即该数据库中与电脑相关的项目为 SHCL,光盘,电池,摄像头.如果采用传统的不加权的方法,得到的频繁 3.项集B,C,EI,它的非空子集有BC,BE,CE,B,C和E, 可能输出的关联规则如表 2 所示.假设最小置信度设置为 0.7,则将这些关联规则的置信度最小簧信度
13、阈值进行比较,叮以得到最后输出的关联规则为 BjE,EB,BcE,CEjB,即电脑和光盘,摄像头在起,将有利于促进互销.不过,对商场管理员来说,这样的信息“ 近乎自然“, 很“平凡“.如果只是挖掘到这类“ 平凡“的知识,这样的挖掘是不能令人满意的,是不成功的.对商场而言,赢利是第位的,所以他们最关心的是赢利程度高于其它商品的摄像机的销售,想知道,什么商品与摄像机放置在一起能够有利于促进互销? 可是 ,按照传统的挖掘算法思路却挖掘不到任何有关高档摄像机(A)的信息,商场管理员对鬟嘲袄件技术与研究挖掘的结果显然是不满意的,这样的关联规则表 2 由频繁 3-项集BCE】可能产生的关联规则置信度BCj
14、E1BECO.67CEBlCjBE0.67BjCE0.67E=,BC0.67B=C0.67C:B0.67B=E1E=BlE=C0.67C=,E0.67是失败的.联规则为了解决这个问题,根据每个项目的重要性(这里主要指赢利程度,给予不同的权值,用户越关注的项目权值越大.这里,根据实际赢利情况给 AE 分配如下权值:A:0.7,B:0.8,C:0.4,D:0vl,E:0.3运用 1WA 算法对前面的事务数据库进行挖掘,可以看到,采用最大值加权和平均值加权的方法都能挖掘出商场管理者感兴趣的项目电脑和利润较高项目摄像机相关联的规则.挖掘出的知识比传统方法要丰富和新颖,正好符合用户的期望.比如:A=C,
15、ABCE,ABCE,AEBC,ABCE,ABEC,ACEB,ABjC,ABlE,AEB.得到的规则说明,摄像机与电脑,光盘,摄像头摆放在一起,会促进商品的销售,这样的信息对商场管理员来说是最需要的,最有价值的.在上例中分别采用了三种加权方法进行信息挖掘.使用最小权值法挖掘出的信息与不加权的结果是一样的.说明该方法不能很大程度地突出重点项目.当然在某些场合,也有其先进之处,可作参考.为了完成以上工作,下面给出 IWA 算法的伪代码描述.输入:事务数据库 D;输出:候选集 Ck.,/主程序I=TidIES(D):/产生兴趣项扩展集Lk-new_arpriori(I);/使用 new_apriori
16、 算法生成频繁 k-项集R=AssociationRuleGen(Lk,mincon0;/从频繁项集中产生关联规则其中 newapriori 子程序是对 apriori 算法按照加权计算支持度的方法做了相应修改,并采用事务标识集的相交方法计算支持度的方法,提高 Apriori 的执行效率,其伪代码如下:/newapriori 子程序EachtransactiontC1;/ 数据库的每一事务放入候选集 C1中ForallcandidatescCl:/ 对于候选集 Cl 中的每一项做以下操作(Tids(c)=SetTid(C):/扫描事务数据库,设置候选项的事务标识集Support(c)-num(
17、Tids(c);/计算候选项的支持度Ifweight(c).suppo(c)weight.min_suptheninsertcintoL.:/将大于最小加权支持度的候选项插入频繁 i.项集For(Kl-2;Lk_l;k+)(apfiorgen_2(Lk_I);/调用 apfiorgen_2 生成候选集 CkLk=C Cdc(wS1=weight.min_sup:/将候选集 Ck 中加权支持度大于等于最小加权支持度的项目放入频繁项集中)Answer:L=U4.结束语本文论述了经过改进的 Apriori 算法,即能较好解决实际问题的 IWA 算法.Apriori 算法的缺点有:(1)可能产生大量的
18、候选集;(2) 可能需要重复的扫描数据库 ,通过模式匹配检查一个很大的集合.这些都需要我们在实际运用中进行合理的解决.参考文献:【l】郭健美.基于 Apfiofi 算法的改进算法【J.计算机工程与设计,2008,11:2814-2816.2钱雪忠.关联规则挖掘中对 Apfiofi 算法的研究J】.计算机工程与应用,2008.17:138141.【3】文蓉.一种优化的 Apfiofi 算法J.计算机系统应用,2008,01:94-97.4赵艳芹.一种高效的 Apfiofi 改进算法J】.黑龙江科技学院学报.2007,06:459463.5】赵松 .Apofi 算法的改进 .哈尔滨理工大学,200
19、7.05:94-98.6】刘永彬 .基于 Apfiofi 和住集合的关联规则应用J 】.微计算机信息.2007,33:141144.TheResearchofAssociationRulesMiningBasedonAlgorithmAprioriLiQinghong(ZhuzhouProfessionalTechnologyInstitute,Zhuzhou412001,Hunan)【b 州】Inthispaper,weproposesanewalgorithmbasedontheinterestsetandtheweightofitem(IWA).TheInteresteditemisproposedbyuserwhoconcernsofit.Then,correlativeitemaresearchfromdatabase.WeoffereachitemadifferentweightvalueSOthatitcanrepresenttheimportanceofindividualitemsfromdatabase.InthiswayweCangetveryvaluablerulesthatAprioricant.【-岫】 datamining;associationrule;Apriorialgorithm:algorithmimprovement:weight62