收藏 分享(赏)

关联规则基础上数据挖掘最新算法.docx

上传人:kpmy5893 文档编号:8089217 上传时间:2019-06-08 格式:DOCX 页数:9 大小:24.77KB
下载 相关 举报
关联规则基础上数据挖掘最新算法.docx_第1页
第1页 / 共9页
关联规则基础上数据挖掘最新算法.docx_第2页
第2页 / 共9页
关联规则基础上数据挖掘最新算法.docx_第3页
第3页 / 共9页
关联规则基础上数据挖掘最新算法.docx_第4页
第4页 / 共9页
关联规则基础上数据挖掘最新算法.docx_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、1课程设计报告名 称: 数据仓库与数据挖掘 题 目: 数据挖掘中关联规则的发展趋势院 系: 经济管理系 班 级: 信管 1201 学 号: 201206040109 学生姓名: 韩智强 指导教师: 温磊 成 绩: 2日期:2015 年 5 月目录一、引 言 3二、基于复杂数据组织形式的关联规则算法 3(一)并行数据库 3(二)数据仓库 3(三)时间连续数据库 4(四)增量式更新数据库 4三、新研究方法的引入 5(一)模糊集 5(二)概念格 5(三)其他研究方法 5四、前沿研究 5(一)时间 -空间数据库 5(二)Web 挖掘 6(三)多媒体数据库 6(四)可视化挖掘 6五、总结与展望 73数据

2、挖掘中关联规则的发展趋势一、引 言目前,越来越多的行业都存在巨量数据处理的问题,结构简明的关联规则凭借简单易懂的规则表达形式较其他数据挖掘方法更容易被接受,其广泛的应用前景也被学术界所认同。理论体系的逐渐完善和实际应用的巨大成功使关联规则一度成为数据挖掘的重要研究方向。但随着现代数据库技术的发展和应用领域的拓宽,数据存储形式甚至数据格式都发生了巨大变化,关联规则研究也面临着前所未有的挑战。为了明确关联规则研究的现实意义和未来发展趋势,笔者考察了近几年国内外相关的研究成果和最新动态。在对复杂数据组织形式的关联规则挖掘详细描述的基础上,探讨了其他学科领域对关联规则的理解及相应的研究方法,最后提出了

3、关4联规则的前沿研究问题和未来的发展趋势。二、基于复杂数据组织形式的关联规则算法随着并行和分布式数据库系统、数据仓库、联机分析处理(OLAP)和数据立方体等数据组织、存储、分析和处理技术的出现和成熟,使关联规则挖掘在并行数据库、数据仓库、时间连续数据库和增量更新数据库等复杂数据组织形式中的应用成为可能,相应地产生了一系列新的关联规则算法。(一) 并行数据库对于并行数据库而言,一般具有多个可以同时独立运行的处理器(结点),并通过网络交换信息。由于并行体系结构计算能力强,数据处理量大,因而基于并行体系结构的关联规则算法明显优于基于单处理器的顺序算法。并行数据库可以分为无共享体系(share-not

4、hing) 结构和内存共享体系(shared-memory)结构。关联规则并行算法的设计主要从数据合理分配、减少 I/O 操作、负载平衡、减少结点间的通信和同步以及减少计算冗余等方面权衡考虑。无共享体系结构中,数据库分布在各个结点(即分布式数据库),各结点间有网络连接,每个结点可独立处理子数据库。主要算法都是将原有的顺序算法并行化,如 Agrawal,R.等(1996)的 Countdistribu2tion,DataDistribution 和CandidateDistribution1;Park,J.S.等(1995)的 PDM2;Cheung,D.W.等(1996)的FDM3和 Cheu

5、ng,D.W.等 (1996)的 DMA4,以及 Za2ki,M.J.等(1997) 的 ParEclat5等算法。在内存共享体系结构中多个结点共用内存和数据库,各结点通过共享变量通信。这类算法采用了异步候选集生成,比宽度优先算法的扫描次数少。但各结点可独立访问数据库,因此需要解决 I/O 通道共享和并发访问数据库时 I/O 占用问题。由于这类并行数据库较少使用,相关的研究也不多,有代表性的算法是APM6。(二) 数据仓库目前,数据仓库已经成为标准的数据存储和组织形式。在数据仓库中各种数据以多维形式组织,即数据立方体。而采用 OLAP 技术驱动的数据仓库具有数据质量高、相关数据环境好和实时分析

6、等优点。因此相应的算法就直接针对数据立方体设计,并由 OLAP 技术实现。这类算法多是已有的多维关联规则算法的推广和优化。5较为简单的算法是建立在频繁谓词集上的,把谓词作为项,谓词的出现次数作为支持度,不考虑谓词出现的强度。如 Apriori-Cube 算法7(高学东等(2003) 直接在数据立方体上搜索频繁谓词集。而考虑概念层次的算法较复杂,如 Adaptive-FP 算法8和 FP-Growth9类似,但是先对项加入概念层次编码后再建立 FP-tree,采用同一支持度挖掘同一概念层次的维间和维内频繁集,采用可变支持度挖掘不同维或者同维不同概念层次的频繁集,贺琼等(2004)在 Adapti

7、ve-FP 的基础上进一步利用概念层次信息优化了 FP-tree 的建立过程10 。(三) 时间连续数据库时间连续数据库包含了随时间延续而变化的事务数据或事件记录。这类数据的特点是具有明显的时间顺序,且呈现一定的规律性或者周期性。这方面的研究主要集中在连续时间的事务数据集和多个时间序列中的关联规则挖掘。连续时间的事务数据集中的关联规则挖掘类似具有时间维度的多维关联规则挖掘,但直接将时间效应引入算法,增加算法的适应性和可扩展性。施平安等(2001)认为事务的出现频率和时间段有关。因此先定义频繁集的高频适用期和低频适用期,然后分别挖掘高频适用期和低频适用期中的频繁集; 喻伟等(2002) 建立了延

8、迟关联规则模型:XTY, 当 T0 时,称为延迟规则;当 T=0 时为一般规则,并提出了DirectDelay 算法挖掘延迟规则。在时间序列中,每个序列都表示一个数值属性的取值曲线或者事件的持续时间和间隔。而数值属性的时间序列可映射为多个取值区间的事件序列,因此时间序列都可转化为事件序列。事件序列的关联规则更强调规律性和周期性,常被称为频繁序列模式(frequentsequentialpattern)或者频繁片断模式(frequentepisodepattern)。Villafane,R.等(2000)分析多个时序的事件在时间段上的包含关系13,由此建立可传递的闭合包含图(transitive

9、lyclosedcontain2mentgraph),再通过点和边的计数得到频繁包含关系的支持度和可信度。Harms,S.K.等(2004)提出了挖掘片断关联规则的 MOWCATL算法14,可在关联规则的前件和后件中分别引入用户指定的内包约束(inclusionconstraint),还可指定固定的或者最大的时间滞后值。(四) 增量式更新数据库增量式更新数据库中的关联规则挖掘面临的问题主要有两个:第一,给定的支持度和置信度阈值,新的事务数据值 d 加入原数据集 D 时,如何得到 dD 的关联规则; 第二,给定事务数据库 D,支持度和置信度阈值发生变化时,如何得到新的关联规则。6Cheung,D

10、.W.等(1996) 首先考虑了第一个问题,并提出了增量式更新数据库中关联规则挖掘的 FUP 算法 15。FUP 基于 Apriori16并假设已有频繁集和支持度已经保存。该算法没有充分利用已有的频繁集信息,需要对 dD 进行 n 次扫描(n 为 D 中最大频繁项集的大小),扫描次数过多;而李宝东等(2002)的 EFUP 算法17,只要先逐层扫描 d,再扫描 D 一次,就能得到 dD 的频繁集。对于第二个问题,有两种情况:第一,支持度阈值变大导致频繁集减少 ;第二,支持度阈值变小导致频繁集增加。第一种情况只需扫描一次数据库并保留满足新的支持度的频繁集即可。第二种情况较为复杂,需要重新设计算法

11、。代表算法有 IUA18。IUA算法使用了一种新的候选集生成方法,充分利用了已有的频繁集信息。但 IUA 中的 iua-gen()函数的连接操作所得候选集数目过大,而修剪操作还会误删频繁集。陈丽等(2001) 的 EIUA 算法 19和石冰等(2000)的 LAA 算法20分别改进了 iua-gen()函数,避免误删频繁集的同时又提高了算法的效率。三、新研究方法的引入(一) 模糊集模糊集由 Zadeh,A.于 1965 年创立。其主要创新是把经典集合里特征函数的取值函数由二值域0,1 扩展到闭区间 0,1,并给出了模糊集的定义:一个定义在论域 U 上的模糊集合 F 由隶属函数 F:U0,1 表

12、征 ,其中 F 表示在模糊集合F 上的隶属度。模糊集主要用于提高关联规则的有趣度和可理解性。Hong,T.等(1999)提出一种典型的定量关联规则挖掘算法21 。先使用隶属函数将每个定量数据转化为带有语言值的标量基数,再在该模糊集中挖掘关联规则。Wang,S.等(2002)考虑了时间连续的事务数据库中挖掘模糊相似的序列模式的问题22。Hong,T.等(2003)提出了模糊多层关联规则的挖掘方法23。(二) 概念格在形式概念分析中24, 概念的外延表示这个概念的所有对象的集合,而内涵表示所有对象共有的属性集合。以此将概念的哲学理解形式化。概念格(conceptlattice)是形式概念分析中的核

13、心数据结构, 概念格的结点关系体现了概念之间的泛化和实例化关系,因此非常适合用来挖掘规则型知识。Missaoui,R.等 (1994)首次从概念格中提取近似规则25,实现了基于概念格的7关联规则挖掘;Pasquier,N.等(1999) 利用了概念格中概念连接的闭合性,创新地定义了闭合项集格26, 并通过 A-close 算法挖掘频繁闭合项集(frequentcloseditemset);Pei,J.等(2000)的 CLOSET 算法以 FP-tree 为基础,使用深度优先策略搜索频繁闭合集27;Wang,J.等(2003)在 FP-tree 结构、修剪策略和验证闭合性等方面对 CLOSET

14、 做出改进得到 CLOSET+算法28;而 Zaki,M.J.等(2002)建立的 CHARM 算法采用了 tid2set 和 diffsets 结构表示事务标签集 29,并同时搜索项集和事务标签集,可高效修剪并得到频繁闭合集。(三) 其他的研究方法粗糙集由波兰数学家 Pawlak,Z.于 1982 年创新。粗糙集强调数据的不可辨(indiscernibility)与模棱两可 (ambiguity),研究不同类中的对象组成的集合间的关系。因此粗糙集在关联规则中的应用主要是规则挖掘前的数据约简和降维等预处理; 朱建平等(2004) 给出了事务数据库的粗糙集表示30,并详细讨论了事务性数据库的粗糙

15、集压缩的信息损失问题,大大减少了后续的关联规则挖掘的搜索空间; 刘发升等(1999) 利用粗糙集泛化概念层次树 ,以约简所得的关联规则31;Guan,J.W.等(2003) 使用粗糙集方法挖掘文本数据库系统的关联规则32 。基于生物遗传算法的关联规则发现方法,利用遗传算法的自适应寻优及智能搜索技术获取与客观事实相容的关联规则。生物遗传算法需要首先确定染色体编码方案,然后确定适应度函数,最后确定遗传操作。通过遗传算子(如选择,交叉(重组)和变异等)来产生一群新的更适应环境的染色体,形成新的种群。许国艳等(2002)对图书馆借阅数据采用生物遗传算法挖掘关联规则33。四、前沿研究作为最成功的一种数据

16、挖掘工具,关联规则挖掘得到了全面而深入的研究。目前,前沿研究主要有以下几个方面。(一) 时间空间数据库时间空间关联规则(spatio-temporalassocia2tionrule),就是在关联规则的谓词集中加入空间谓词和时间谓词。这方面的研究主要集中在地理信息系统和地球科学等自然科学领域,由于时间空间数据库的规模异常庞大,主要使用空间换时间的算法策略,在较短的时间内尽快挖掘出有效规则。Tan,P.等(2001) 采用时间序列的关联规则算法挖掘地球生态变化模式34;Su,F.等(2004)采用空间分布式数据的关联规则算法挖掘生态关联规则,并对中国黄海区域的鱼群分布进行了实例分析35。8(二)

17、Web 挖掘通常互联网站无法获取用户访问网页的完整行为,只能得到大量访问日志文件和网页链接的点击记录。因此,Web 挖掘理所当然地成为数据挖掘的一个主要研究领域。现阶段的研究集中在 Web 内容挖掘和 Web 使用挖掘。关联规则作为 Web 挖掘的重要工具,既可通过分析 Web 日志文件和 Web 链接数据挖掘出用户的访问规律,也可作为 Web 内容聚类和检索的预处理步骤。有关的研究有李颖基等(2003) 提出的基于 Web 拓朴概率模型和有趣关联规则的 IAR 算法36,可对 Web 日志进行关联规则挖掘 ;宋擒豹等(2003)提出一种 Web 文档聚类算法37,先采用向量空间模型表示主题,

18、根据主题表示文档;再把文档作为事务 ,主题作为项,采用关联规则算法得到主题频繁集,以供后续的聚类操作;Xing,D.等(2004)将用户访问页面的停留时间和点击链接的顺序作为偏好程度,并以此提出 UAM 和 PNT算法挖掘频繁浏览模式38。(三) 多媒体数据库现在多媒体数据库的容量和规模快速增长,迫切地需要一个有效的查询技术以提高多媒体数据库的使用效率。可是,现代计算机图形技术提供的基于图形描述符的图形检索与用户输入的查询的概念描述仍然存在差距。这是因为:第一,低层次的图形特征关系无法准确反映用户查询的概念描述;第二,用户主观性也会导致概念描述的差异。此外,多媒体数据库本身也在不断完善之中,相

19、应的数据库操作仍在研究之中,因此关联规则挖掘还局限在静态图像的范围内。Zaane,O.R.等(1998)在基于 OLAP 技术的数据挖掘系统 DBMiner 和基于数字图书馆的图形检索系统 C-BIRD 基础上,建立了可挖掘高层次信息的多媒体数挖掘系统 MultiMediaMiner39,该系统采用数据立方体的数据组织形式并实现了关联规则挖掘在内的多种数据挖掘方法;Snchez,D. 等(2003) 提出图像语言值学习模型40,把图像的语言值作为图像的概念描述进行检索,使用图像的视觉属性来表征图像。通过模糊关联规则来描述特征与概念之间的关系,在图像语言值的层次上进行图像检索,用模糊关联规则的不

20、确定性表示用户主观性。(四) 可视化挖掘人类视觉系统是一个非常宽域的信息通道。可视化方法就是利用人类这一能力来发现并解释基于图形表示的数据模式和结构。因此关联规则发现过程的9可视化就成为最具潜力的研究方向之一。Kopanakis,I.等(2003)提出了并行的柱状图系统41,利用柱状图各种特征(长度,颜色和背景等)实现数据降维和关联规则发现;Kimani,S.等(2004)提出VidaMine 系统42, 向用户提供一致统一的可视界面,用户不仅能可视化地处理数据,还能够控制整个数据挖掘过程的方向。五、总结与展望本文首先对复杂数据组织形式的关联规则挖掘进行了详细的考察,随后探讨了其他学科领域对关

21、联规则的理解及相应的研究方法。在较完整地回顾了关联规则在近十年内的产生、演进过程和现状之后,笔者认为关联规则未来的发展趋势大致有以下四个方向:1 关联规则算法体系的标准化,模块化。关联规则的定义较简单,虽然算法形式多变,但基本思想和策略变化不大。有必要建立一个系统的算法体系归纳总结现有的各种算法。该系统至少应满足:(1)各算法具有统一的数据输入和输出格式,(2)算法模块独立使用,(3) 提供标准统一的算法测试平台。2 处理非结构化数据库。与具有明确的属性域取值的结构化数据不同,非结构化数据不具有明显的结构形式。如流式数据,多媒体数据和文本数据等。这类非结构化数据库的大量使用,无疑将引导关联规则研究进入一个全新的领域。3 辅助研究。在生命科学、天文科学、生态科学和环境科学等数据密集型的自然科学研究领域,关联规则可以提供高效的规律发现和模式识别方法,验证已有的和发现全新的经验和规律。可以预见,关联规则将成为科学研究的重要辅助工具。4 辅助决策。关联规则在医药、金融、商业和工业制造等领域的成功应用证明了关联规则的理论生命力和实际应用价值。如何将关联规则和其他的决策方法结合,为决策者提供科学有效的依据将成为关联规则研究中最具现实意义的课题。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报