收藏 分享(赏)

分布式数据挖掘综述.doc

上传人:无敌 文档编号:145676 上传时间:2018-03-22 格式:DOC 页数:13 大小:112KB
下载 相关 举报
分布式数据挖掘综述.doc_第1页
第1页 / 共13页
分布式数据挖掘综述.doc_第2页
第2页 / 共13页
分布式数据挖掘综述.doc_第3页
第3页 / 共13页
分布式数据挖掘综述.doc_第4页
第4页 / 共13页
分布式数据挖掘综述.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、分布式数据挖掘综述 刘滨 河北科技大学经济管理学院 摘 要: 随着网络技术、通信技术等的不断突破,互联网、移动网、广电网等多种类现代网络及其衍生业务迅速扩张,形成泛在于网络空间的分布式计算环境。为了最大化这些数据的价值,需要利用数据挖掘技术发现其中隐藏的模式或规则,用以指导和辅助生产或运营中的管理决策行为,以提高决策水平及决策收益。然而,受到普遍存在的异构性、私有性和平台兼容性等限制,兼因行业竞争和法律约束等因素(如个人或企业的数据隐私保护问题等),互联于网络的数据源难于进行集中式挖掘,分布式数据挖掘(DDM)技术应运而生。介绍了 DDM 的定义与框架、适用场景和研究挑战。根据文中给出的 DD

2、M 高层架构,最终结果的质量与局部数据源的类型、可用性、局部结果的质量及整合方法等密切相关。DDM 的实施未必都以站点间纯粹独立挖掘的方式进行,此外,对于数据集中,系统分布式站点多的情况,也可采用 DDM。当前,DDM 研究领域的挑战主要有:异构与同构挖掘、动态环境下的数据多变性、通信开销、知识整合和语义异构等。当前的 DDM 系统被分为 4 类:1)基于 Multi-Agent 的系统,利用 Agent 的自治性实现局部挖掘以保护数据私有性;利用 Agent 的主动性减少用户参与以提高挖掘自动化水平;利用Agent 的协作性实现多算法协同挖掘等;2)基于网格的系统,利用网格在资源共享、开放服

3、务和协同工作等方面的优势,提高挖掘的可靠性和协同性;3)基于元学习的系统,通过元学习优化挖掘算法的选择与组合,并对已获知识进行多次学习以提高结果质量;4)基于 CDM(collective data mining)框架的系统,将待学习的函数表示为一组基函数的分布式存在,允许各数据源选择不同的学习算法,并以全局结果正确为前提减少网络通信量。进而,对当前 DDM 研究存在的共性问题进行了归纳:1)结果质量问题,不考虑各个站点数据源间的内在语义联系,各站点独立挖掘本地数据,与其他站点间无语义层面的数据交互或融合,形成纯粹的“分割式”挖掘,最终导致全局结果质量受损;2)挖掘效率问题,如何调度资源以平衡

4、挖掘负载、减少协作挖掘中的通信开销问题。针对结果质量问题,探讨本体与数据挖掘的结合。作为语义网的基础,本体能为对象语义距离度量提供有效支持。当前,在利用本体描述挖掘任务的领域背景方面,利用本体描述 DM 过程本身方面,都已经有研究人员进行了探索性工作:针对关联规则挖掘中需要从海量规则中遴选有效规则的问题,提出了交互式的、用于删减冗余规则的挖掘后处理方法;针对在给定知识发现过程的输入和输出类型前提下,知识发现工作流的自动构造问题,提出了解决方法。通过阐述可知,为了提升分布式挖掘过程中局部结果和最终结果的质量,策略之一就是将 DDM 理论和本体理论作融合,以数据源间语义距离的度量为突破口,建立语义

5、距离度量的复合量化体系,通过构建和求解新型 DDM 模型来实现目标。关键词: 分布式数据挖掘; 数据挖掘; 本体; 语义距离; 作者简介:刘滨(1975-),男,河北石家庄人,教授,博士,主要从事数据挖掘方面的研究。E-mail: 现为 DARG 组(数据分析研究组)组长,河北科技大学大数据与社会计算研究中心(筹)主任,河北科技大学经济管理学院学科建设办公室副主任。2008 年毕业于北京理工大学计算机软件与理论专业,获得博士学位,20112012 年在清华大学从事博士后研究。主要研究领域是大数据分析与可视化、社会计算等。在国内外期刊和会议上发表论文 40 余篇(第一作者 25 篇),被 SCI

6、,SSCI,EI 检索 21 篇。主持国家自然科学基金面上项目 1 项、河北省自然科学基金项目 2 项,参研河北省自然科学基金面上项目 1 项、河北省科技攻关计划项目 2 项。收稿日期:2013-04-22基金:国家自然科学基金(71271076)Survey on distributed data miningLIU Bin School of Economics and Management,Hebei University of Science and Technology; Abstract: With the continuous technological breakthrough

7、s in the fields of network and communication,modern networks as Internet,mobile network,broadcast network and their derivative business have been quickly developed.The ubiquitous distributed computing environments in cyberspace are popularly constructed.To maximize the value of the data accumulated

8、in the distributed computing environments,we need to use data mining technology to discover the hidden patterns or rules.The knowledge(patterns or rules)can be used for management decision supporting in daily production or operation in order to improve the decision-making level and consequent gains.

9、However,subject to the prevailing heterogeneity,proprietary,platform compatibility and other restrictions,and also considering industry completion and legal constraints,etc.,(such as personal or corporate data privacy issues),the data sources interconnected by networks are difficult to be centrally

10、mined,so distributed data mining(DDM)technology came into being. First,this paper introduces the definition,framework,applicable scenarios and current research challenges of DDM.According to the high-level architecture of DDM introduced in this article,the quality of final result is closely related

11、to the local data sources type,availability,quality and integration method of the local results.DDM may not be implemented in a purely independent(between the sites)manner.In addition,when the data are centralized and there are distributed sites in the system, DDM can also be adopted.Currently,the m

12、ain challenges in DDM research fields are:heterogeneous and homogeneous mining, data variability in dynamic environment,communication cost,knowledge integration and semantic heterogeneity and so on.Second,the current DDM systems are divided into four categories:1)System based on multi-agent.Agents a

13、utonomy is used for local mining to protect data privacy;Agents initiative is used to reduce the user involvement to improve the level of automation in mining;Agents collaboration is used for multi-algorithm cooperative mining.2)Grid-based system.Making use of the grid advantages in terms of resourc

14、e sharing,open services,and collaborative work,reliability and interoperability are improved in mining. 3)System based on meta-learning.Through meta-learning,the mining algorithm selection and combination are optimized,and the quality of the results is improved by repeatedly training of the knowledg

15、e.4)System based on CDM(Collective Data Mining)framework. The function to be learned is expressed as a set of distributed basis functions;the data source is allowed to select different learning algorithm,and the overall network traffic is decreased on the premise that the global result is correct. F

16、urthermore,the common issues exist in the current DDM research fields are summarized:1)Result quality.DDM system does not consider the intrinsic semantic relations among data sources of each site.Each site independently mines the local data, and there are no data interchange or fusion with other sit

17、es at semantic level.The DDM job is executed in form of pure “splitstyle“,which eventually damages the quality of the global result.2)Mining efficiency.Its the problem about how to schedule resources to achieve loading balancing,reducing communication cost in collaborative mining. For result quality

18、,this paper explores the solution to combine ontology and data mining.As the basis of the Semantic Web,ontology can provide effective support for measuring the semantic distance between objects.Currently,researchers have already conducted exploratory work that describes the field context of mining t

19、ask with ontology,and the data mining process itself with ontology.For example,for selection of effective ones from massive rules in association rule mining,some people proposed interactive,post-mining approach for the deletion of redundant rules.Given the premise of process input and output types o

20、f the knowledge discovery,Some people provided a solution concerning the automatically constructed problem of knowledge discovery workflow. Through the description of this paper,we can find that if we want to improve the quality of distributed local results in mining process and final global result,

21、one of strategies is to compromise the DDM theory and the ontology theory,making the semantic distance measurement between data sources as a breakthrough,and establishing a compound quantification system for semantic distance measurement,finally achieving the goal by building and solving new DDM mod

22、el.Keyword: distributed data mining; data mining; ontology; semantic distance; Received: 2013-04-22随着网络(有线和无线)技术在计算、通信和安全等领域不断产生重要突破,互联网、移动网、广电网、物联网、视联网等现代网络及衍生业务迅速扩张,形成泛在于网络空间的、包括各种数据和计算资源的分布式计算环境。例如:互联网的蓬勃发展,催生出丰富的网络业务形态,如电子商务、电子政务、网络教育、网络游戏等,为各类组织迅速集聚起海量数据。为了最大化这些数据的价值,将其应用范围从传统的服务于业务处理、报表统计的事务服务

23、层次扩展至知识服务层次,需要利用数据挖掘(data mining,DM)技术发现其中隐藏的模式或规则,用以指导和辅助生产或运营中的管理决策行为,以提高决策水平及决策收益。例如, 在电子商务领域,研究基于关联规则的购物篮分析方法,针对客户动态地调整站点结构和网页内容,有助于实现商品的关联销售;研究购买行为相似的客户分类方法,有助于提供个性化服务以提高客户满意度; 研究浏览行为相似的客户聚类方法,有助于把握各类客户的消费习惯和倾向,向其推荐特定商品和实现交叉销售,既提高了营销的目标性和有效性,又降低了营销成本。然而,这些互联于网络的数据源间普遍存在异构性、私有性和平台兼容性等限制,兼因行业竞争和法

24、律约束等因素(如个人或企业的数据隐私保护问题等)难于进行集中式挖掘,而分布式数据挖掘(distributed data mining,DDM)技术,通常被视为 DM 技术在分布式环境中的扩展,已经证明了其在应对以上问题时的有效性,并且,即便在数据非物理分布的条件下,DDM 技术也能提高挖掘的效率。GIANNELLA等对分布式挖掘与集中式挖掘进行了比较,概括出了 DDM 的 2 点优势:1)网络通信开销较少在 DDM 过程中,在每个数据源处进行局部挖掘后,将中间结果(局部模式)而非数据传输到中央处理单元,以便整合出全局模式。与集中式DM 需要传输局部数据源处的大量数据相比, DDM 中仅需传输局

25、部模式,网络通信带来的时空开销更少;2)安全性较好对分布式环境下拥有各个局部数据源的组织而言,DDM 过程中只需共享(传递)挖掘出来的局部模式而非全部数据,有助于更好地保护数据私有性。1 DDM 相关概念图 1 分布式数据挖掘框架 Fig.1 Distributed data mining framework 下载原图1.1 定义与框架DDM 在 20 世纪 90 年代后期逐渐被人们关注,通常被定义为分布式环境中的数据挖掘,或是利用分布式计算资源挖掘分布式数据资源,并对局部结果(模式)进行整合以得到最终结果(全局模式)。在图 1 中给出的 DDM 高层架构中,显然,最终结果的质量与局部数据源的

26、类型、可用性、局部结果的质量及整合方法等密切相关。DDM 的实施未必都以站点间纯粹独立挖掘的方式进行,当某个(些)站点具备较强的计算、存储和通信能力时, 这个(些)站点可以汇聚其他站点的数据,形成“全局分布、局部集中”挖掘方式;此外,DDM 中的数据也未必都来自于分布式数据源,对于拥有海量集中数据,同时拥有分布式站点(计算资源、存储资源等)的组织来讲,可以将数据分散到各站点,充分利用站点资源,实施分布式挖掘,获得优于集中式挖掘的效率。1.2 适用场景DDM 通常适用于具有如下特征的场景中:1)系统包括多个具有独立数据和计算资源的站点,站点间仅通过消息传递进行通信;2)站点之间的通信开销昂贵(否

27、则,可以进行集中式 DM 了);3)站点具有资源限制(例如,资源的可用时间、范围等);4)会考虑站点资源私有性保护(例如,数据资源的使用权限、可用范围等)的问题。1.3 研究挑战当前,DDM 研究与应用领域的主要挑战如下。1)异构与同构挖掘当源数据主要来自少数几处站点,并且由相同的数据库管理系统(data base man- agement system,DBMS)和管理模式来维护时,大部分数据的结构(属性、格式、单位等)规范而统一,此时, DM 的主要开销在于处理同构式数据;而当源数据内部存在大量异构数据时,则需要在挖掘前将各分布站点的数据转变为全局一致的结构,否则,结构上的冲突在所难免(例

28、如:同类同质数据却分别归于不同的属性等)。2)动态环境下的数据多变性在传统的挖掘过程中,数据通常被视为静态的,挖掘工作在拥有足够多数据的环境中进行。而随着一些新兴业务的发展,例如电子商务,与其相关的数据具有天然的时变性,即数据的产生、有效性等与时间值密切相关,挖掘结果也具有时间敏感性。由此知,在分布式环境下,将各个站点处时间敏感的、具有动态特征的局部挖掘结果正确传送、聚集、整合具有一定的挑战性。3)通信开销集中挖掘条件下,挖掘算法通常结合系统的 I/O 开销和 CPU 时间开销进行设计。而在分布式数据环境中,站点间的通信开销是影响挖掘效果的重要因素,和网络带宽、传送的信息量等密切相关。4)知识

29、整合 DDM 的最终目标是通过分析、整合局部模式来获得最终的全局模式。就局部数据集的分析任务而言,可以采取现有的集中式挖掘的方法;而在整合局部结果方面,传统的简单整合的方法或许不再有效。例如,对某个或某些局部站点的有趣模式,放在全局层面来看,或许将不再具有价值。所以,为了整合出全局模式,有必要先收集全部的局部有趣模式,站在全局层面考察局部模式的价值。5)语义异构分布式数据源间普遍存在语义异构,而现有 DDM 模型大多根据数据源间结构上的同构或异构,假设它们是一张虚拟表的水平或垂直分割结果,对数据源的挖掘实际是以语义分割的方式独立进行。当数据源间的语义距离较大时,将无法形成该虚拟表的构建基础,由

30、此推及,语义分割式的独立挖掘将损害结果质量。作为一种语义描述模型,本体有效而规范,在数据源本体构建相关的本体学习领域和计算本体间相似度的本体匹配领域积累了很多方法,为有效度量数据源间的语义距离奠定了基础。2 DDM 系统及分类DDM 是利用分布式计算资源挖掘分布式数据资源,通过整合局部结果以获得全局知识的方法,主要瓶颈在于分布式数据环境下的挖掘限制和多算法协作问题,挖掘质量主要取决于局部结果的质量和整合方法的质量。基于以上共识,国内外学者引入 Agent 和网格等突破挖掘限制、引入元学习优化挖掘算法的选择和组合、引入 CDM(collective data mining)框架改善局部结果质量,

31、取得了许多有代表性的成果,下面根据各自的主要设计理念进行归类分析和综述。2.1 基于 Multi-Agent 的 DDM 系统此类 DDM 系统的主要设计理念是利用 Agent 的自治性实现局部挖掘以保护数据私有性;利用 Agent 的主动性减少用户参与以提高挖掘自动化水平;利用 Agent的协作性实现多算法协同挖掘等。GAYA 等给出了一个利用分布式 Agent 整合局部挖掘结果(Theory)的DATS(decentralized agent- based model for theory synthesis)模型,该模型由采用进化方法整合结果的 MASETS(multi-agent sy

32、s- tem for evolutionary theory synthesis)系统实现。其中,每个 Agent 的架构如图 2 所示,其中,每个 Agent 包括 4 个模块:分类模块(对于给定的实例 e,将其归类于 c)、通信模块(通过消息与其他 Agent 通信)、学习模块(从本地数据 Di 学习本地结果 LT)、整合模块(利用局部结果生成和修正全局结果 GT)。杨博等研究了在分布式动态网络环境中挖掘社区关系问题,引入自组织 Agent 网络,设计了面向自治计算的 AOC(autonomy-oriented computing)方法进行分布式和增量式的网络社区关系挖掘,AOC 方法利用

33、被动 Agent 在分布式动态进化网络中协作式地侦测和更新社区结构。如图 3 所示,社区网络分布于 5 个不同位置的 Agent 间,每个 Agent 对于全网都有自己的局部视图(包括在其控制下的点和从这些点连出的线)。分布式网络社区挖掘的任务可以被描述为这 5 个 Agent 利用各自的视图相互协作找出网络中的全部社区。以上 2 个研究侧重于对 Agent 自治性和协作性的利用;MATEO 等提出一个智能分布式架构和基于 Agent 的 DM 模型来实现自适应机制,以便实施 DM 算法和多Agent 间的高效交互。如图 4 所示,DM 模型基于 Multi-Agent 系统实现,包括 3项

34、DM 功能:聚类、分类和关联规则挖掘,来实施知识发现和系统需求的采集。图 2 Agent 结构 Fig.2 Agents architecture 下载原图图 分布式网络社区挖掘问题示意 下载原图熊赟等设计的挖掘转录调节元素的 TREMAgent(transcriptional regulatory element mining agent)系统,能对转录因子(transcription factor,TF)或转录因子结合位点(transcription factor binding site, TFBS)的预测,提供多种类的检索和鉴别服务并及时更新结果。如图 5 所示,TREMAgent 包

35、括 4 类 Agent: 1)算法 Agent,与其他 Agent 交互以处理各类任务(查询、检索、挖掘);2)数据库 Agent,与外部数据源交互, 它们也管理数据库的本地拷贝并转换为其他Agent 可以访问的格式;3)接口 Agent,为其他 3 类 Agent 提供间接通信服务;4)协调 Agent,在接口 Agent 和算法 Agent 间建立通信通道,派发任务给不同的Agent,协调处理和冲突。此外,协调 Agent 存储每个 Agent 的信息,维护全系统的控制工作。图 4 面向基于 Multi-Agent 间通信和协作的智能分布式框架的 DM 模型 Fig.4 Data mini

36、ng model for the intelligent distributed framework based on the communication and coor- dination of Multi-Agent 下载原图图 5 TREMAgent 系统全景图 Fig.5 Overview of TREMAgent system 下载原图综上所述,此类基于 Multi-Agent 的 DDM 系统中,多 Agent 间的通信和协作是影响挖掘效率的重要因素,而现有研究多侧重于协作机制的设计,较少考虑 Agent间的通信开销。2.2 基于网格的 DDM 系统基于网格的 DDM 系统的主要

37、设计理念是利用网格在资源共享、开放服务和协同工作等方面的优势,提高挖掘的可靠性和协同性;在网格计算环境中进行 DM,也是通过共享局域和广域网络分享资源(计算和存储等)的典型范例。由此可知,利用网格计算提高挖掘的性能、可扩展性、可访问性和资源利用率是这个方向的主要发展动力。图 6 DMG 系统体系结构 Fig.6 DMG system architecture 下载原图STANKOVSKI 等提出的数据挖掘网格(data mining grid,DMG),基于面向服务的体系结构(service-oriented architecture, SOA)、标准化和开源原则设计。采用了开放式网格服务体系

38、(open grid services architec- ture,OGSA)和Web 服务资源框架(web services resource framework,WSRF)以支持其进化。图 6 给出了 DMG 系统的 4 层体系架构,通常而言,高层次的组件会调用低层次的组件。最底层组件包括了软件和硬件资源;Glo- bus Toolkit 4 层给出了一些系统的核心网格中间件组件;服务层给出了提供中枢 DMG 服务的组件;客户组件层给出了 DMG 应用客户端的组件。为了应对“信息与数据重叠”的挑战,楚一红等提出了基于网格的子空间聚类算法(nonre- dundant subspace c

39、luster mining,NORSC),以便在保证必要数据覆盖度的前提下高效发现间接的子空间距离。NORSC 不仅能避免在给定数据大都归属于高维聚类情况下产生冗余聚类,而且在处理数据覆盖问题时只有有限的信息丢失。图 7 给出了 NOR- SC 算法流程图。图 7 NORSC 算法流程图 Fig.7 Flowchart of algorithm NORSC 下载原图罗杰文等系统分析了 Agent 网格面对的主要问题,实现了一个基于 Agent 网格的智能平台(agent grid intelligent platform,AGrIP),AGrIP 平台为网格环境中基于 Agent 的 DDM

40、提供了底层构造。同时,从实现的观点出发,设计了一个面向 AGrIP 平台的 4 层模型,如图 8 所示。1)公共资源层(Common Resources) 包括分布在网格环境中的各类资源,例如,工作站、PC 机、计算集群、存储设备、数据库、数据集等,可以运行在Unix,Windows NT 或其他操作系统平台上。2)Agent 环境层(Agent Environment)这是网格计算的核心层,负责资源定位、分派、验证、统一信息访问、通信、任务分配和 Agent 库的管理等。3)开发工具包层(Developing Toolkits)开发环境,包括 Agent 的创建、信息检索、DDM,以便让用户

41、更有效地使用网格资源。4)应用服务层(Application Service) 包括部分面向特定应用的被组织起来的Agent, 这些应用包括:科研信息化(E-Science)、电子商务、决策支持和生物信息等。作为此类方法的基础,网格技术在资源管理和任务调度方面尚有很大的研究空间,而与之关联的负载平衡问题则是提高挖掘效率的关键问题。图 的体系结构 下载原图2.3 基于元学习的 DDM 系统其主要设计理念是通过元学习优化挖掘算法的选择与组合,并对已获知识进行多次学习以提高结果质量。HMIDA 等提出了 Weka4GML 框架, 它的建立基于 Globus 工具包一种支持WSRF 标准,并被广泛采用

42、的网格中间件,服务于开发元学习方法以处理分布于数据网格间的数据集。 Weka4GML 扩展了 Weka 工具包(一个串行 DM 算法集,面向知识发现, 包括标准的数据预处理、挖掘和可视化技术)来支持数据挖掘算法的分布式执行。如图 9 所示,Weka4GML 包括 4 种类型的节点:存储节点、基分类节点、元分类节点和用户节点。1)存储节点包括分布式数据集的一个或多个片段,并将所存数据及其属性作为Web 服务发布,同时通过 FTP 服务器与其他网格节点分享本地数据。2)基分类节点通过在本地数据集上执行基分类算法挖掘局部模式。这些模式被用于各类数据集以进行预测,并将预测结果发送给元分类节点。3)元分

43、类节点利用 FTP 服务器收集元数据,并在其上执行元级挖掘算法生成最终分类器。图 9 Weka4GML 框架上执行的元学习过程 Fig.9 Meta-learning process on Weka4GML framework 下载原图4)用户节点提供系统的图形界面允许用户选择 Weka 支持的算法,来对存储节点上的数据集进行挖掘,执行网格上的元学习过程。杨立等提出的 SOA4KD(service oriented architecture for knowledge discovery)体系,结合元学习和语义网来选择和执行挖掘算法。其结构见图 10,其中数据服务层对应于“知识发现过程”定义(

44、见文献43) 中的 F,知识发现算法服务层对应于“知识发现过程”定义中的 L,KB (knowledge base,背景知识库)以领域本体的形式被放置于语义服务层中;此外,语义服务层中还包含了KDS(knowledge discovery service)质量本体、扩展的知识发现任务本体和回答本体。质量本体是一个可扩展的定义,它不仅包含“知识发现过程”定义中的确定程度 C 和感兴趣程度 I,还包含了 KDS 作为服务的一些通用测度和过程测度,这就保证了 KDS 质量评价的通用性、完整性和可扩展性,从而最大限度地满足不同用户多样性的需求。基于自然语言扩展的知识发现任务本体是一个将知识发现任务和自然语言问题元素连接起来的扩展本体,结合领域本体,实现以自然语言方式获取用户需求,SOA4KD 通过元学习器动态挑选出满足用户需求的最合适的知识发现算法服务并触发执行,而回答本体的作用是将知识发现的结果转化为自然语言,以方便用户理解。图 10 SOA4KD 体系结构 Fig.10 Architecture of SOA4KD 下载原图此类方法的主要局限在于,并非所有挖掘算法都能直接实现元学习。2.4 基于 CDM(collective data mining)框架的 DDM 系统

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报