收藏 分享(赏)

关联挖掘在图书借阅数据库中的应用.doc

上传人:cjc2202537 文档编号:195856 上传时间:2018-03-23 格式:DOC 页数:9 大小:96KB
下载 相关 举报
关联挖掘在图书借阅数据库中的应用.doc_第1页
第1页 / 共9页
关联挖掘在图书借阅数据库中的应用.doc_第2页
第2页 / 共9页
关联挖掘在图书借阅数据库中的应用.doc_第3页
第3页 / 共9页
关联挖掘在图书借阅数据库中的应用.doc_第4页
第4页 / 共9页
关联挖掘在图书借阅数据库中的应用.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、关联挖掘在图书借阅数据库中的应用26 福砻电脑 2006 年第 9 期关联挖掘在图书借阅数据库中的应用许珂(山东师范大学信息管理学院山东济南 250014)【摘要】对图书馆中的图书借阅数据库进行挖掘能给图书管管理人员提供许多有用信息.本文介绍了数据挖掘中的关联规则的基本概念,关联规则的挖掘过程,并给出了 Apriori 算法.以德州学院图书馆为例,分析了关联挖掘在图书馆中的应用.【关键词】关联规则 Apriori 算法图书借阅数据库随着数据库技术飞速发展.数字资源越来越多,传统的数据库系统只能对数据库中已有的数据进行存取和简单操作.我们通过这些数据中可获取的信息量极少.人们迫切需要从庞大的数据

2、中获取有用的信息.数据挖掘就是从大量的不完全的,有噪声的,模糊的数据中,提取潜在的,有价值的知识,数据挖掘常用的技术有关联规则,决策树,粗糙集,神经网络等.本文将关联规则应用到图书馆图书的借阅记录数据库中.通过数据挖掘的方法找出类似于“读者借阅了 A 类文献时.也会借阅 B 类文献“.“计算机的研究生大多对数学类书籍感兴趣“等关联规则.为图书管理员提供有用的信息服务.用于指导管理员选购图书.为读者推荐相关的图书,使图书的摆放位置更加优化.1.基本概念1.1 关联规则的基本概念:关联规则是用于发现给定事件或记录中经常发生在一起的项目.由此推断事件间潜在的关联.识别有可能重复发生的模式.1.2 设

3、 I=fi1,i2,iml 为项的集合,DB 为事务集合,其中每一个事务 T 都是项的集合.且有 TI,每一个事务都有一个相关的标识符,兀 D 和它对应.设 X 为一个项集,当且仅当XT 时. 我们说事务 T 包含 X.a.关联规则:形如 XY 的蕴涵式,其中 XI,YI,且XNY=.b.支持度:如果 DB 中有 s%的事务包含 XuY.那么规则 X=Y 在事务集 DB 中具有支持度 s.support(X=P(Xu=IfT:XuY_CT,TDI/IDI100(其中 IDI 是事务集 DB 中的所有事物数)支持度是对关联规则重要性的衡量.反映关联是否是普遍存在的规律.C.置信度 :如果 DB

4、中包含 X 的 C%的事务同时也包含 Y.规则)【 =Y 在事务集 DB 中具有置信度 C.confidence(X=P(YIx】=IfT:XuYC_T,TDI/IT:XT,TDl100%tg 信度是对关联规则准确度的衡量,用来度量关联规则的强度.给定一个事物集 DB,用户给定的最小支持度(minsupp)称为最小支持度阈值.用户给定的最小置信度(mincon/)称为最小置信度阈值.挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度阈值和最小置信度阈值的关联规则.当规则的置信度和支持度分别大于 minsupp,minconf 时.我们认为规则是有效的.称为强关联规则.当数据项集

5、 X 的支持度大于minsupp 时,称 X 为频繁项集.1.3 关联规则还可分为多种形式:可通过图书的概念分层来研究多种形式的关联规则芒a.简单关联规则 :规则考虑的关联是涉及化学类书籍/I化学无机/,看定量分析定性分析金穗元素到只是单层单维.且是布尔关联规则.本文受“泰山学者 “建设工程专项经费资助例如:有机化学 j 分析化学b.量化关联规则规则描述的是量化的项或属性之间的关联.例如:age()(,.1830“)j 爱情书籍 ,涉及的收入是数值类型C.多维关联规则:如果规则涉及到两个或多个维.则为多维关联则.下例中涉及到 age,sex 和文献分类三个属性,也为多维关联规则.例如:age(

6、)(,“1521“)sex(X,“男“)borrow(X,“ 科幻小说“)d.多层关联规则:对文献按图书分类法分为不同的层次 .在规则中包含了不同层次的项目时.此规则为多层关联规则.如 age(x,“2530“)book(x,“环境科学“)jborrow(x,“分析化学“1.环境科学和分析化学在图书分类中属于不同的层次.2.关联规则的挖掘过程2.1 挖掘事物数据库 DB 中所有关联规则的问题可以被划分为两个子问题:a.找出所有具有最小支持度的项集(即频繁项集 1.可用Aprior/算法来找出频繁项集.b.由频繁项集产生强关联规则.对于每一个频繁项集 1.找出其中所有的非空子集,然后,对于每一个

7、这样的子集 a.如果 sup.port(1)support(a)l比值大于最小置信度,则存在规则 aj(1-a).2.2 经典的关联挖掘发现算法 Apriori 算法Agrawal 等在 1993 年首先提出了挖掘顾客交易数据库中项集间的关联规则问题.核心方法是基于频繁理论的递推方法.频繁项集的所有非空子集也都必须是频繁的.反之,如果一个集合不是频繁集,则它所有超集也不是频繁集.Apriori 算法求频繁项集使用逐层搜索的迭代方法,k 项集用于探索(I【+1)项集.首先,找出频繁 1 一项集的集合,记作 L1;L1 用于找频繁 2 一项集的集合 L2.而 L2 用于找 L3,如此下去,直到不能

8、找到频繁k 一项集.找每个 u【都需要一次数据库扫描.Apfiori 算法由连接和剪枝组成.算法:Apriofi 使用根据候选生成的逐层迭代找出频繁项集输入:事务数据库 D:最少支持度阈值 minsup算法代码:1)LI=flarge1-itemsets;2)for(k=2;IJ【一 1;k+)dobsin3)Ck=apriori-gen(Lk 一 1,);/Newcandidates4)foralltransactionstDdobegin5)Ct=SUbset(Ck,t);/Candidatescontainedint61forallcandidatesCCtdo7)count+;8)en

9、d9)Lk=fCCklc.countminsup10)end2006 年第 9 期福建电脑 2711,AnswerL=UkLk;Apfiofi 算法的第 1 步找出频繁 1 一项集的集合 L1 在第 21O 步中,Lk 一 1 用于产生候选 Ck,以找出 Lk.Apfiofigen 过程产生候选,第 3 步使用 Apriofi 性质删除那些具有非频繁子集的候选,第 4 步扫描数据库,第 5 步使用 subset 函数找出事务中是候选的所有子集,第 6 步和第 7 步对每个这样的候选累加计数最后.所有满足最小支持度的候选会形成频繁项集 L.2I3 关联挖掘在借阅数据库中的应用图书馆的数据库中有大

10、量的借还记录.我们对读者的借阅记录数据进行挖掘.会发现读者对文献的借阅存在着一定的关联.不同类型的读者对文献的借阅存在着一定的规律.不同的学科之间也存在着某种特定的联系.现代图书馆的借阅记录都以数据库的形式保存.我们可以通过对借阅记录中读者和书籍等信息进行关联分析,挖掘出这些数据之间的关联.可以图书管理员购书提供服务信息.有利于合理配置图书馆的文献资源和提高资源的利用率.下面以德州学院图书馆 2003 年到 2005 年的读者借阅数据为例来说明读者证号书条码索书号应还日期事务类型操作者20o 柏 324E6o80121079987045I365/皿 F2Oo40624LendL5662o040

11、4I5E6I5O0I1080857669.8989/GYD2Oo407I5LendL76420050322E7100131036576745.568,WH020050622LendL57820050423F8090481024565698456/SGR20050723Lend1.453从数据源中选取读者证号和分类号做进一步分析.对如时间,条码,操作者等可以认为是一些无关的信息.本文以挖掘不同类图书之间的关联规则为例来说明.所以.图书的分类可以取索书号中的分类号.所以需要对基本数据进行预处理,将历史数据转化为事务数据,每条事务的唯一标识可用读者证号.形成的事务数据如下:Tid 分类号B21oo2

12、347.667,45.687,37.765,ro0004835.765,34.564,23.868,J00000244.677,35,897,76,3465,为描述方便.特提取数据库中几种文献的分类号并分别做简单标记组成数据库.DA=f 半导体化学 A,芳香族化合物 B,分析作业法 C,物理及物理化学分析法 D,有机分析 El,下面我们来进行关联挖掘.第一步.用 Apfiofi 算法来找出频繁项集,运用Apfiofi 算法找出具有最小支持度阈值为 2 的过程,如图所示:由频繁项集产生强关联规则,在上述数据库中,经扫描,筛选.连接,剪枝的过程,最后的到所需要的频繁 2 一项集和频繁 3 一项集.

13、我们可以找出其中所有的非空子集.如果加上约束条件“推导式右边只含有一个商品“和置信度为 O.65.结果关联规则如下:关联规则 BjCconfidence=support_countB,c/supportcountfBl=2/3-0.66关联规则 BjEconfidence=support_countfB,El/sup.poft.countB=3/3=l关联规则 CjBconfidence=support_countfB,c/sup.portcountC=2/3-0.66关联规则 CjEconfidence=support_countfC,El,sup.port._countC=2/3=066关

14、联规则 EjBconfidence=support_countfB,El,sup.(上接第 25 页)portcountE=3/3=1关联规则 EjCconfidence=support_countfC,El,sup-portcountE=2/3=0.66关联规则 BACjEconfidence=support_eountB,C,El,sup-porteountB,C=2/2=1关联规则 BEjCconfidence=support_countfB,C,El,sup-port_eountB,E=2/3-0.66关联规则 CEjBconfidence=support_countfB,E,Cl,s

15、up-port_eountC,E=2/2=1很容易看出,在借阅 f 芳香族化合物 B,分析作业法 C,有机分析 E1 这三种文献中,借阅一个或两个图书的前提下借阅另外两个或一个文献的概率是很高的.算法所计算出来的结果.可以为图书管理员提供有用的信息上述关联挖掘只是提取了借阅数据中的读者证号和图书的分类号作为分析的数据.还可以利用用户的身份,院系,年龄等信息,挖掘出不同的读者类型对不同类别的图书借阅模式,如:关联规则“研究生 A 管理学院 j 运筹学“, 我们可以发现不同学科之间的关联规则以及不同学科层次之间的关联规则3,结论:本文将关联挖掘用于图书借阅数据库中.可以发现许多有用的关联信息,可用

16、于指导图书管理员选购图书.利用潜在的信息可为读者推荐相关图书,并且可将相关的图书的陈列位置更加优化数据库 DA:支持度计数用 s 农示读者汪号分类号分类集 supB20O52884A,C,Dj 描 DA“)2C2003304.3B,C,EB)3E2000:34.53A,B,cEC)3A200112.54B,ED)1U 王)3分;连 jttlo 分类集A)2A,B)B)3 堡垫堕 ?A,C)C)3A,E)(】三)3B,C)B,E)圈二C,E)分樊,stloA,B)l(A,c)2(A,E)1(B,C)2(B,E)3(C,E)2分;笔,Sulo(A,c)2B,c)2B,E)3(c,E)2参考文献:1

17、.JiaweiHart,MichelineKamber(着)范明,孟小峰等译 .教据挖掘: 概念与技术.北京:机械工业出版社.20012.彭仪普.熊拥军.关联挖掘在文献借阅历史教据分析中的应用.情报技术.2o05.83.肖劲松,林子禹,毛超.关联规则在零售商业的应用.计算机.x,ti.2004.24.韩家炜.坎伯,范明等.教据挖掘概念与技术.北京:机械工业出版社 .2()0】g-IR.北京:中 flit 软件行业协会,2004.4.2.未名.为科教兴 flit 战略奠定坚实的基础 IN.北京: 中 flit 教育报.200209-03.3.斯荣喜,龚山平,邹晓东独立学院应用型创新人才培养模式探索】.北京:高等.x,ti 教育研究.2005 年第 1 期:7375.4.陈乃芳.特色人才培养的理念和实践】.北京:中 flit 高教研究,2005#-g2 期:18-21.5.连蒲,粱健爱.基于市场竞争下普通高等院校人才培养机制的探讨】北京:清华大学教育研究.2004 年 6 月第 25 卷第 3,1:106110.6.牛雏辟.新世纪高校师资队伍建设的若干思考】.北京:中圈高等教育2001 年第 2O 期:3537.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 教育学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报