1、正负关联规则挖掘算法在电子商务网站中的应用第 11 卷第 15 期 2011 年 5 月16711815(2011)153563-04科学技术与工程ScienceTechnologyandEngineeringVo1.11No.15May20112011Sci.Tech.Engng.正负关联规则挖掘算法在电子商务网站中的应用李文超杨妮妮(辽宁石油化工大学,抚顺 113001)摘要为了增加电子商务网站的销售额,分析了商品推荐在电子商务系统中的作用,研究了数据挖掘中的正负关联规则挖掘技术的特点,提出了一种新的正负关联规则挖掘算法.新算法通过使用旋转数据库和位运算减少了扫描原始数据库的次数,加快了挖
2、掘速度.另外,新算法在挖掘正规则的同时,利用负规则裁减掉无效规则,得到的结果更符合用户的购物行为.通过测试得出新算法比传统的 Apriori 算法执行时间更短,商品推荐更精确.关键词数据挖掘关联规则商品推荐电子商务中图法分类号 TP311;文献标志码 A目前,几乎所有的大型电子商务网站都不同程度地使用了各种形式的推荐系统.好的推荐系统可以增加单个商品被访问的机会,可以增加顾客在网店上的停留时间,能够帮助顾客发现真正感兴趣的商品,提升购物体验,并最终增加网站的访问量,提升销售额.通常来说,电子商务网站的商品推荐,可以基于商品自身的属性,如品牌,种类,适合年龄层等,但是这需要专家对商品进行评论.还
3、可以根据用户的浏览行为推荐,因为用户连续的浏览行为,往往蕴藏着某种规律.比如,很多访客都是看了 A 商品,又看了 c 商品,然后又看了 E 商品,那么 A,C,E 就应该是互相推荐的.根据用户当前的访问行为,预测他下一个会喜欢的商品,做出针对性的推荐,这就要用到数据挖掘中的关联规则挖掘技术.传统的关联规则挖掘2 是形如 AB 的规则,实际上除了这种规则外,数据库中还存在许多隐式规则.隐式规则说明哪些数据库项目很少发生,但2011 年 2 月 21 日收到第一作者简介:李文超(1973 一)男,黑龙江省密山市人,硕士,副教授,研究方向:数据挖掘,分布式数据处理.E-mail:landy93163
4、.corn0它们之间却有着相当强的相关性,包含了非常有价值的信息.形如AB,A1B 和-IAB 的负关联规则就是这些隐式关联规则之一.关联规则中的负相关性由 S.Brin 等人最早提出,A.Savasere 等人对负关联规则又做了进一步的研究.在前人研究基础上,提出了一种新的正负关联规则挖掘算法,该算法比传统的 Apriori 算法执行时间更短,效率更高.最后阐述了该算法在电子商务网站的商品推荐中的具体应用.1 基本概念定义 1 设,=,2,m是由不同项目组成的集合.给定一个事务数据库,其中每个事务是,中一组项目的集合,即丁,.定义 2 对于,中的每个子集,如果事务包含了,有.的支持度可以定义
5、为数据库 D中包含了的事务的百分比.即:Support(X)=lDIXC_TI/IDl.定义 3 如果项集,是频繁的当且仅当Support(X)minsup,其中 minsup 是给定的最小支持度阈值.频繁项集 M 是最大频繁项集,当且仅当不存在项集,使得,且 Support(X)3564 科学技术与工程 11 卷mlnsup0定义 4 一个正关联规则是形如 y 的规则,而形如j,j和 41的形式被称为负关联规则,这里,y,且 nY=.根据 A=的正关联规则,可以帮助网站工作人员了解购买了商品 4 的用户,大多同时会购买商品 B.因此商品 B 有理由成为商品的推荐商品.然而,如果此时负规则_1
6、B 也成立,就出现了矛盾.我们设当 Support(A 曰)Support(jB),Aj 才为正规则,只有当 Support(AB)II/2时,才需要计算 Support(1B).2 正负关联规则挖掘算法2.1 算法设计表 1 原始数据库通过对传统的关联规则挖掘算法进行研究,提出了一种新的正负关联规则挖掘算法,PNM 算法,该算法思想如下.(1)旋转数据库中待挖掘的表.旋转后的表中仅保留支持数大于 minsup 的行.利用位视图来表示访问了该数据项的事务,即如果事务 rri 访问了该数据项,则这组整数的第 i 位就为“1“,否则为“0“.将第 i 行中 1 的个数作为 item;的支持数.图
7、1为原始数据库,图 2 为旋转后得到的形式.(2)计算正规则支持数 Support(AB).将项A 与 B 对应行按位进行并运算,计算结果中 1 的个数作为 Aj 曰的支持数.(3)计算负规则支持数.将项 A 按位取反后与项对应行按位进行并运算,得到 Support(74=B),同理得到 Support(A7B)和 Support(74=B).(4)重复第(2)和第(3)步,得到所有项集.伪算法描述如下:算法:PNM输入:数据库 D;最小支持数 minsup.输出:正关联规则集 PRS;负关联规则集 NRS.步骤:I.item=;I.bmSet=;I.Suppo=0;PRS=;NRS=;dow
8、hileaccess:#(/扫描数据库 ,旋转表i.item=item;/将项目放人对应的项集中i.bmSet:bmSetTID(1item);/将项目对应的位置为 1I=IUi:/生成所有正规则集和形如 AjB 的负规则集forVA I 和 VBIcl=A.bmSetB.bmSet;/按位与操作,计算 AjBc2:A.bmSet(B.bmSet);/按位与操作,计算 AjBif(eomputeSupport(e1)eomputeSupport(c2)PRS=PRSuAB/将 AB 放入正关联规则集 PRSif(eomputeSupport(c1)fDI/2)NRS=NRSuAB/将 AB 放
9、入负关联规则集 NRS函数 computeSupport 用于计算每个项日对应的位视图中数字1的个数 ,并将计算的结果作为该项目的支持数.computeSupport(C)cm=C.bmSet;whileemOem1:C.Suppoai+;/计算支持数12.2 算法分析PNM 算法通过使用旋转数据库,减少了计算一3355240l11010O11O11O1ll11O11231O045615 期李文超,等:正负关联规则挖掘算法在电子商务网站中的应用 3565项候选集时扫描原始数据库的次数,从而加快了数据挖掘的速度.图 1 为 PNM 算法与 Apriofi 算法在执行时问上的比较.从图 1 可以看
10、出,PNM 算法执行时间曲线近乎水平,Apriori 算法执行时间曲线呈明显的单调递增趋势,而且在相同支持度下,PNM算法执行时间都要少于 Apriori 算法.之所以会产生这样的结果,主要是因为和经典的 Apriofi 算法相比较,PNM 算法只需要扫描 1 次原始事务数据库用来产生最初的候选集.在后续操作中,例如产生候选集,计算支持数等操作,都不需要再访问原始数据库.这就大大缩短了执行时间,提高了运行效率,使得 PNM 算法比 Apriofi 算法更具有时间优越性.8O604020?一 Apfiofi-一 PNM3PNM 算法在商品推荐中的应用对于一个大型的电子商务网站来说,如果要挖掘出所
11、有商品之间的正负项集,所要计算的工作量会非常巨大.一般来说,数据库中的商品都会被分成百货类,食品类,服装类,运动器材等类别,而每一个类别又会被分成若干个小类.为了减少计算工作量,在进行数据挖掘时只考虑同一类商品之间的关系,这也符合顾客选购商品的一般规律.例如顾客在浏览一个数码相机的时候,网站可以告诉他还有其他哪些数码相机可以浏览,是不是需要同时购买 SD 卡.顾客在浏览一件红色女装时,网站可以同时向他推荐红色的小包和红色的袜子,因为这样搭配起来更加吸引眼球,而不是向他推荐一款时尚手机或电饭煲.由于只是进行商品推荐,所以在进行数据挖掘时只需要挖掘到 2.项频繁集就可以了.通常每件商品的推荐商品数
12、目是有限制的,如果符合推荐的结果很多时,可以选择支持数最大的几个商品作为推荐结果.算法如下:算法:PR输入:数据库 D;最小支持数 rainsup;num;/hum 为所需推荐商品数目输出:正关联规则集 PRS;步骤:按照商品类别 Catago,将数据库 D 分割成 D1UD2UPRS=:mreachD.DPNM(D.,minsup,PRSi,NRS.);令 P=ABIA,BcatagoiAjBPRSiif(IPInum)P=son(P);/将规则集按照 supponumber 由大到小排序deletethelastlPl_numroles;为了验证 PR 算法的有效性 ,随机生成了商品的购物
13、历史数据库,并利用 Apriori 算法和 PR 算法对数据库进行挖掘,得到商品推荐精确度比较图如图 2 所示.从图 2 可以看出 PR 算法在各个支持度上的商品推荐精度都要优于 Apriori 算法.0.8O.70.60.5器 0.40.30.20.100.10.20.30.40.50.60.70.80.9最小支持度图 2Apfiofi 算法和 PR 算法商品推荐精确度比较4 结论商品推荐在电子商务网站中的作用越来越重要,提出了一种新的正负关联规则数据挖掘算法,使用该算法可以根据销售历史数据更精确的向用户推荐其可能感兴趣的商品.实验证明,由于新算法使用旋转数据库和位运算,比传统的 Apfio
14、fi 算法执行速度更快,而且在引入负规则挖掘后,商品推荐的精确程度更高.当然,该算法也存在一定的局3566 科学技术与工程限性,例如当网站商品量过大时,所需的内存空间将会增加,这是下一步需要解决的问题.参考文献1AgrawalR,SrikantR.Fastalgorithmsforminingassociationrulers./Proceedingofthe20thInt7ConferenceonVeryLargeDatabases,Santiago,Chile,SantiagodeChile:MorganKanfmarm,1994:4874992AgrawalR,ImielinskiT,S
15、wamiA,Miningassociationrulesbetween4setsofitemsinmassivedatabases.ProcoftheACMSIGMODIntlConfonManagementofData.WashingtonDC,1993:207216BrinS,MotwaniR,SilversteinC.Beyondmarketbasket:generalizingassociationrulestocorrelations.Procof1997ACMSIGM0DIntlConfManagementofData,ACM,Tucson,Arizona,USA,1997:265
16、276SavasereA,OmieeinskiE,NavatheS.Miningforstrongnegativeassociationsinalargedatabaseofcustomertransactions.Procofthe1998IntlConfonDataEngineering(ICDE),1998:4945O2ApplicationofPositiveandNegativeAssociationRulesinECommerceLIWenchao,YANGNini(LiaoningShihuaUnivemity,Eushun113001,P.R.China)AbstractIno
17、rdertoincreasesalesofe?commercesite,theroleofproductrecommendationinecommercesystemisanalyzed,thecharacteristicsofassociationrolesindataminingisstudied,andanewalgorithmforminingpositiveandnegativeassociationrulesisproposed.Thenewalgorithmreducesthenumberofscanningtheoriginaldatabasethroughusingrotar
18、ydatabaseandbitoperations,andacceleratesthespeedofdatamining.Inaddition,whenthenewalgorithmisminingpositiveassociationrules,itcutsoutinvalidrulesusingnegativerules,andthismakestheresultmoreinlinewiththeusergshoppingbehavior.Obtainedbytesting,theexecutiontimeofthenewalgorithmisshorterthanthetradition
19、alapriorialgorithm,andproductrecommendationismoreaccurate.Keywordsdataminingassociationrulesproductrecommendationecommerce(上接第 3548 页););p;DownholeFailuresAnalysisforLPR-NValveofAPRToolintheLIUHuan.jun,LIYuruing,WANGShu.xia(OiltestcompanyofDaqingOilfieldCo.Ltd.,Daqing163421,P.R.China;CollegeofPetrol
20、eumEngineeringofNortheastPetroleumUniversity,Daqing163318,P.R.China)AbstractMaderop 一1isoneofthethreeexplorationwellsdrilledbyPetroChinainMaderopIslandofIndonesiain2010.Thewellsituationiscomplicatedandmostofthelayersareoverpressureformation.Thetwooiltubes(27/8“)wereinthepositionwheretheformationpres
21、surecoefficientwas1.5.Themudspecificgravitywas1.8inthewellhole.Thefieldproceduresisintroduced.alongwiththefundamentalsoftoolandfieldtest.FortheLPRNvalveopenedautomaticallyduringthetestingprocessandcantopenafterthetest,thebreakdownisanalyzedandthesolutionsaresuggestedKeywordsLPRNvalvehighspecificgravitymudbreakdownanalysis