工智能及专家系统敖志刚第6章数据挖掘与知识发现PPT课件..ppt-道客多多

资源描述

1、敖志刚编制,第6章数据挖掘与知识发现,敖志刚编制,第6章数据挖掘与知识发现,第6章数据挖掘与知识发现,61 数据挖掘的技术基础 611 数据挖掘的概念 612 数据挖掘的功能和存在的主要问题 613 数据挖掘成功案例 62 数据挖掘的方法步骤和语言工具 621 数据挖掘的方法 622 数据挖掘语言 623 数据挖掘的工具 624 数据挖掘的流程,第6章数据挖掘与知识发现,63 数据挖掘系统的组构及管理策略 631 数据挖掘系统的组成 632 数据挖掘系统的架构 633 数据挖掘管理系统 64 数据挖掘的研究与发展 641 数据挖掘系统的开发进展 642 数据挖掘未来研究方向,61

2、数据挖掘的技术基础,611 数据挖掘的概念 1. 技术的产生面对信息社会，人们积累的数据越来越多。激增的数据背后隐藏着许多重要信息，人们希望能对其进行更高层次的分析。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。,2. 当前数据特点, 数据规模巨大；数据分布存储；数据来源广；数据特性未知；数据包含不确定信息；数据包含不安全信息；数据日益增长。,3. 数据挖掘的定义,数据挖掘DM(Data Mining)也称为数据库中的知识发现

3、KDD(Knowledge Discovery in Database) 。数据挖掘就是通过采用自动或半自动的手段，对数据进行一定的处理，从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，发现和提取有意义的、隐含在其中的、人们事先不知道的、但又是有效的、新颖的、潜在有用的、最终可被理解的信息和知识的过程。从另外一个方面来说，数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。与数据挖掘相近的同义词有知识提取、数据融合、数据/模式分析、数据考古学、数据捕捞和信息收获等等。此定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要

4、可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。,4. 数据挖掘基本概念的区分, 数据挖掘与传统分析方法传统的数据分析如查询、报表、联机应用分析等数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识，所得到的信息应具有先未知，有效和可实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。, 数据挖掘和知识发现,知识发现被认为是从数据中发现有用知识的整个过程，是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识。知识发现研究的问题有：定性知识和定量知

5、识的发现；知识发现方法；知识发现的应用等。, 数据挖掘和数据仓库,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中(见图6-1)。数据挖掘库是数据仓库的一个逻辑上的子集，而不一定非得是物理上单独的数据库。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。, 数据挖掘与信息处理,信息处理基于查询，可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式，或隐藏在数据库中的规律。, 数据挖掘与联机分析（OLAP）,OLAP分

6、析过程在本质上是一个演绎推理的过程，是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么，OLAP则更进一步告诉你下一步会怎么样和如果采取这样的措施又会怎么样。用户首先建立一个假设，然后用OLAP检索数据库来验证这个假设是否正确。数据挖掘在本质上是一个归纳推理的过程，与OLAP不同的地方是，数据挖掘不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前，OLAP工具能起辅助决策作用。而且在知识发现的早期阶段，OLAP工具用来探索数据，找到哪些是对一个问题比较重要的变量，发现异常数据和互

7、相影响的变量。, 数据挖掘与人工智能、统计学,数据挖掘是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。数据挖掘就是充分利用了统计学和人工智能技术的应用程序，并把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。数据挖掘分析海量数据。许多数据库都不适合统计学分析需要。,5. 数据挖掘系统的分类, 根据数据模型分类，可以分为有关系的、事务的、面向对象的、对象-关系的、或数据仓库的数据挖掘系统。根据所处理的数据的特定类型分类，可以分为有空间的、时间序列的、

8、文本的、或多媒体的数据挖掘系统，或WWW 数据挖掘系统。根据数据挖掘的功能，可以分为特征、区分、关联、聚类、局外者、趋势和演化分析、偏差分析、类似性分析等数据挖掘系统。根据所挖掘的知识的粒度或抽象层进行区分，包括泛化知识（在高抽象层）、原始层知识（在原始数据层）或多层知识（考虑若干抽象层）。一个先进的数据挖掘系统应当支持多抽象层的知识发现。,5. 数据挖掘系统的分类, 根据所用的技术分类：这些技术可以根据用户交互程度（例如，自动系统、交互探查系统、查询驱动系统），或所用的数据分析方法（例如，面向数据库或数据仓库的技术，机器学习、统计、可视化、模式识别、神经网络等等）描述。根据挖掘任务可以

9、分为：分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据挖掘对象可以分为：关系型数据库挖掘、面向对象数据库挖掘、空间数据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体数据库挖掘、异质数据库挖掘、遗产数据库挖掘、Web数据库挖掘。,6. 数据挖掘的来源,一般情况下，数据挖掘在关系数据库、数据仓库、事务数据库、高级数据库系统和信息库四种数据库上进行。关系数据库关系数据库是表的集合，每个表都赋予一个唯一的名字。每个表包含一组属性（列或字段），并通常存放大量元组（记录或行）。语义数据模型，如实体-联系（E

10、R）数据模型，将数据库作为一组实体和它们之间的联系进行建模。通常为关系数据库构造ER模型。, 数据仓库,数据仓库是一个集成的、面向主题的、设计用于决策支持功能的数据库的集合，数据中的每一个数据单元在时间上都是和某个时刻相关的。一般来讲，数据仓库都很巨大，它存储了几百万条记录。在很多情况下，一个组织可能有几个局部或部门的数据仓库，这常常叫做数据集市。数据仓库包括以下的数据类别：过去细节数据；当前(新)细节数据；轻度综合数据；高度综合数据；元数据(数据目录或向导)。, 事务数据库,事务数据库由一个文件组成，其中每个记录代表一个事务。通常，一个事务包含一个唯一的事务标识号(trans_ID)，和

11、一个组成事务的项的列表（如，在商店购买的商品）。事务数据库可能有一些与之相关联的附加表，包含关于销售的其它信息，如事务的日期、顾客的ID号、销售者的ID号、销售分店等等。, 高级数据库系统和信息库,高级数据库系统和信息库包含以下6个方面：空间数据库；时间数据库和时间序列数据库；流数据；多媒体数据库；面向对象数据库和对象-关系数据库；异种数据库和历史（legacy）数据库；文本数据库和万维网（WWW）。,7. 数据挖掘研究内容和知识类型,主要研究内容基础理论、各种挖掘算法和挖掘语言、数据仓库、可视化技术、定性定量互换模型、智能计算和软计算在数据挖掘中的应用、知识表示方法、发现知识的

12、维护和再利用、半结构化和非结构化数据中的知识发现、网络数据挖掘以及对已有知识的维护和再利用等。所发现的类型：即广义知识、概括性描述知识、关联知识、分类知识、预测型知识、偏差型知识。,8. 数据挖掘的应用, 电信：客户群体划分、客户流失性分析、客户信用记分、筛选因特网上的新闻；银行：聚类（细分）、交叉销售、数据库营销、背景分析；百货公司/超市：购物篮分析（关联规则）、预测准客户的需要；保险：细分，交叉销售，流失（原因分析）、欺诈发现；信用卡：欺诈探测，细分；电子商务：网站日志分析；税务部门：偷漏税行为探测；警察机关：犯罪行为分析；医学：医疗保健。,6.1.2 数据挖掘的

13、功能和主要问题,1. 数据挖掘的功能自动预测趋势和行为。如市场预测、预报破产等。关联分析。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。聚类。数据库中的记录可被化分为一系列有意义的子集，即聚类。聚类技术主要包括传统的模式识别方法和数学分类学。概念描述。就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成区别性描述的方法很多，如决策树方法、遗传算法等。偏差检测。偏差包括很多潜在的知识，如分类中的反

14、常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。,2. 实施数据挖掘项目要考虑的问题, 超大规模数据库和高维数据问题；数据丢失问题；变化的数据和知识问题；模式的易懂性问题；非标准格式的数据、多媒体数据、面向对象数据处理问题；与其他系统的集成问题；网络与分布式环境下的KDD问题；个人隐私问题。,3. 数据挖掘存在的主要问题, 数据挖掘技术和用户界面问题。在数据库中挖掘不同类型的知识。多个抽象层的交互知识挖掘。结合背景知识。数据挖掘查询语言和特定的数据挖掘。数据挖掘结果的表示和显示。处理

15、噪音和不完全数据。模式评估兴趣度问题。,3. 数据挖掘存在的主要问题, 性能问题。数据挖掘算法的有效性和可规模性。即对于大型数据库，数据挖掘算法的运行时间必须是可预计的和可接受的。并行、分布和增量挖掘算法：许多数据库的大容量、数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素。这些算法将数据划分成部分，这些部分可以并行处理，然后合并每部分的结果。此外，有些数据挖掘过程的高花费导致了对增量数据挖掘算法的需要。增量算法与数据库更新结合在一起，而不必重新挖掘全部数据。,3. 数据挖掘存在的主要问题, 关于数据库类型的多样性问题：关系的和复杂的数据类型的处理：

16、数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据、或事务数据。对于不同类型的数据，应该有不同的数据挖掘系统。由异种数据库和全球信息系统挖掘信息：从具有不同数据语义的结构的、半结构的、和无结构的不同数据源发现知识，对数据挖掘提出了巨大挑战。Web 挖掘发现关于Web 连接、Web 使用和Web 动态情况的有趣知识，已经成为数据挖掘的一个非常具有挑战性的领域。此外，超大规模数据库和高维数据问题；数据丢失问题；变化的数据和知识问题；模式的易懂性问题；非标准格式的数据、多媒体数据、面向对象数据处理问题；与其他系统的集成问题；网络与分布式环境下的KDD问题；个人隐私问题也是数据挖

17、掘项目应该考虑的问题。,613 数据挖掘成功案例,1. 雅虎数据挖掘成功案例阅读邮件和阅读新闻的相关性一个例子雅虎电子邮箱。通过对用户使用行为的意外模式分析，发现在每次会话中，人们阅读邮件和阅读新闻的行为之间存在很强的相关关系。研究人员把这个发现传达给雅虎电子邮箱产品小组，他们首先想到的就是验证这种关系的影响。即时通信对雅虎通的使用情况进行了分析，结果发现，最重要的因素是让用户扩大他们的“好友列表”，至少增加5个新的好友。据此雅虎精心设计了相应的营销活动，鼓励用户增加好友列表中的好友数。雅虎首页的搜索框一个简单的例子就是发现，在雅虎的首页上，把搜索框放在居中的位置（而不是以前的左侧

18、）将提高用户的用量。这个结果是首先发现Netscape浏览器的用户比IE的用户更多地使用了搜索功能。,2. NBA数据挖掘成功案例,今天，NBA的教练有了他们的新式武器：数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排，在与迈阿密热队的比赛中找到了获胜的机会。 Advanced Scout是一个数据分析工具，教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类，按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比

19、赛的录像来理解统计发现的含义。例如：教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录，他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作，进而设计合理的防守策略。,3. 商业银行数据挖掘成功案例,例如，美国Firstar银行等使用的Marksman数据挖掘工具，能读取800到1000个变量并且给它们赋值，可以根据消费者的家庭贷款、赊帐卡、储蓄、投资产品等，将客户分类，进而预测何时向哪类客户提供哪种产品。 Mellon银行使用智能代理数据挖掘软件提高销售和定价金融产品的精确度，如家庭普通贷款。Mellon银行销售部在先期数据挖掘项目上使用智能代理寻找

20、信息，主要目的是确定现有Mellon用户购买特定附加产品：家庭普通信贷限额的倾向，利用该工具可生成用于检测的模型。智能代理可帮助用户增强其商业智能，如交往、分类或回归分析，依赖这些能力，可对那些有较高倾向购买银行产品、服务产品和服务的客户进行有目的的推销。,4. 沃尔玛的经典案例,一般看来，啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示，在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单，一般太太让先生下楼买尿布的时候，先生们一般都会犒劳自己两瓶啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘

21、的诞生。,62 数据挖掘的方法步骤和语言工具,621 数据挖掘的方法分析和预测方法。数据挖掘中大量采用统计分析方法，如描述统计、概率论、回归分析（线性回归、非线性回归、多元回归、泊松回归、对数回归）、时间序列分析、多元分析等。粗糙集。把那些无法确认的个体都归属于边界线区域，而这种边界线区域被定义为上近似集和下近似集之差集。粗糙集理论主要特点在于它恰好反映了人们用粗糙集方法处理不分明问题的常规性，即以不完全信息或知识去处理一些不分明现象的能力，或依据观察、度量到的某些不精确的结果而进行分类数据的能力。,621 数据挖掘的方法, 模糊集。模糊集合论用隶属程度来描述差异的中间过渡，是一种用精确的

22、数学语言对模糊性进行描述的方法。定义：论域X=x上的模糊集合A由隶属函数A(x)来表征。其中A(x)在实轴的闭区间0，1中取值，A(x)的大小反映x对于模糊集合A的隶属程度。A(x)的值接近1，表示x隶属于A的程度很高。A(x)的值接近0，表示x隶属于A的程度很低。特例，当A的值域取0，1闭区间的两个端点，亦即0和1两个值时，A便退化为一个普通的逻辑子集。隶属函数也就退化为普通逻辑值。,621 数据挖掘的方法, 聚类分析。聚类是对物理的或抽象的对象集合分组的过程。聚类生成的组为簇，簇是数据对象的集合。簇内部任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。主要方法

23、有：划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。关联规则。它反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。发现关联规则需经如下两步：找出所有频繁项；由频繁项集生成满足最小信任度阈值的规则。,621 数据挖掘的方法, 决策树。它首先通过一批已知的训练数据建立一棵决策树，然后采用建好的决策树对数据进行预测。常用的方法有分类及回归树法、卡方自动交互探测法等。人工神经网络。一种模仿人脑思考结构的数据分析模式，由输入变量或数值中自我学习并根据学习经验所得的知识不断调整参数，以期

24、得到资料的模式。它可以对大量复杂的数据进行分析，并能完成对人脑或计算机来说极为复杂的模式抽取及趋势分析。比较典型的学习方法是回溯法。通过将输出结果同一些已知值进行一系列比较，加权值不断调整，得到一个新的输出值，再经过不断的学习过程，最后该神经网络得到一个稳定的结果。多媒体数据挖掘。就是通过综合分析多媒体数据的内容和语义，从大量多媒体数据中发现隐含的、有效的、有价值的、可理解的模式，得出事件的发展趋向和关联关系。,621 数据挖掘的方法, 数据可视化。可视化工具可以通过适当的图形来表示数据，并支持多维数据的可视化，为数据分析人员提供很好的帮助。有些工具甚至提供动画功能。遗传算法。它应用算法的

25、适应函数来决定搜索的方向，运用一些拟生物化的人工运算过程进行一代一代的周而复始的演化，求得一个最佳结果。近邻算法。依据“Do as your neighbors do”的原则，相邻数据必然有相同的属性或行为。Knearest邻居方法的含义为：K表示某个特定数据的K个邻居，可以通过K个邻居的平均数据来预测该特定数据的某个属性或行为。,621 数据挖掘的方法, 连机分析处理。简称OLAP，是基于大型数据库或数据仓库的信息分析过程和用户接口部分，其目的是满足决策支持或多维环境特定的查询和报表要求。OLAP主要是对用户当前及历史数据进行分析，辅助决策。其典型的应用有对银行信用卡风险的分析与预测等，主

26、要是进行大量的查询操作，对时间的要求不太严格。多层次数据概化归纳：数据库中的数据和对象经常包含原始概念层上的详细信息，将一个数据集合归纳成高概念层次信息的数据挖掘技术被称为数据概化。概念汇总将数据库中的相关数据由低概念层抽象到高概念层，主要有数据立方体和面向属性两种方法。,622 数据挖掘语言,数据挖掘语言的研究经历了两个阶段，第一个阶段成果包括DMQL、MSQL和MINE RULE操作器等。第二阶段主要包括数据挖掘组织协会（DMG）提出的预言模型标记语言PMML，以及微软公司提出的OLE DB for Data Mining规范。根据功能和侧重点不同，可将数据挖掘分为三种类型：数据挖掘查

27、询语言、数据挖掘建模语言、通用数据挖掘语言。第一阶段的数据挖掘语言一般属于查询语言；PMML属于建模语言；OLE DB for DM属于通用数据挖掘语言。下面我们分别介绍其特点和功能。,1. 数据挖掘查询语言,数据挖掘查询语言DMQL（Data Mining Query Language）由数据挖掘原语组成，该原语用来定义一个数据挖掘任务。这些原语有以下几个种类：数据库一部分的规范以及用户感兴趣的数据集（包括感兴趣的数据库属性或数据仓库的维度）；挖掘知识的种类；在指导挖掘过程中有用的背景知识；模式估值的兴趣度测量；以及挖掘出的知识如何可视化表示。数据挖掘原语允许用户在挖掘过程中从不同的角度或深

28、度与数据挖掘系统进行交互式地通信。,1. 数据挖掘查询语言,五种基本的数据挖掘原语定义：任务相关数据原语。用户感兴趣的数据集，及表中感兴趣的属性。包括：数据库或数据仓库的名称；数据库表或数据仓库的立方体；数据选择的条件；相关属性或维；数据分组定义。被挖掘知识的种类原语。该原语指定被执行的数据挖掘的功能，分为五类：特征规则、辨别规则、关联规则、分类/预言、聚集。背景知识原语。用户能够指定的背景知识。包括：概念层次、对数据关系的用户信任度。兴趣度测量原语。这个功能是将不感兴趣的模式从知识中排除出去。低于用户指定的支持度和可信度阈值的规则被认为是不感兴趣的。兴趣度测量原语包括：简单性、确定性

29、（比如：可信度）、效用、新颖性等。被发现模式的表示和可视化原语。这个原语定义被发现的模式显示的方式，用户能够选择不同的知识表示形式。包括：规则、表格、报告、图表、图形、决策树和立方体、向下钻入和向上累积。,1. 数据挖掘查询语言,除了DMQL以外，还有一些其它数据挖掘查询语言。比如基于SQL的多媒体查询语言（MSQL）使用了类似SQL的语法和SQL原语（包括排序、分组、和其它原语），能在数据挖掘中可能产生大量的规则。MSQL提供了一个称作GetRule和SelectRule的原语，用于规则产生和规则选择。它统一地对待数据和规则，因此，能够在执行数据选择，以及基于查询的规则产生时进行优化工作，

30、同时也能在操纵或者查询产生规则的集合时进行优化。其它在数据挖掘语言设计方面的研究工作包括MINE RULE操作器。它同样遵循类似SQL的语法，是为挖掘关联规则设计的规则产生查询语言。,2. 数据挖掘建模语言,预言模型标记语言PMML（Predictive Model Markup Language） PMML主要目的是允许应用程序和联机分析处理（OLAP）工具能从数据挖掘系统获得模型，而不用独自开发数据挖掘模块。另一个目的是能够收集使用大量潜在的模型，并且统一管理各种模型的集合。 PMML是一种基于扩展性标识语言（XML）的语言，用来定义预言模型。通过使用XML解析器，应用程序能够决定模型输入

31、和输出的数据类型、模型详细的格式，并且按照标准的数据挖掘术语来解释模型的结果。 PMML对于那些需要全部学习、部分学习和分布式学习的应用程序，这种语言被证明是非常有用的。特别地，PMML非常适合部分学习、元学习、分布式学习、以及相关领域。使用PMML进行模型定义由以下几部分组成：头文件；数据模式；数据挖掘模式；预言模型模式；预言模型定义；全体模型定义；选择和联合模型和全体模型的规则；异常处理的规则。,3. 通用数据挖掘语言,通用数据挖掘语言合并了上述两种语言的特点，既具有定义模型的功能，又能作为查询语言与数据挖掘系统通信，进行交互和特殊的挖掘。 OLE DB for DM归类成通用数据挖掘

32、语言。 OLE DB for DM的规范包括创建原语以及许多重要数据挖掘模型的定义和使用。它是一个基于SQL预言的协议，为软件商和应用开发人员提供了一个开放的接口。 OLE DB for DM扩充了SQL语言语法，使得商业分析和开发人员只是调用单一确定的API（应用程序接口）函数即可实现数据挖掘功能，而不需要特殊的数据挖掘技能。 OLE DB for DM定义了重要的新的概念和特点，包括如下几点：数据挖掘模型DMM（Data Mining Model）。预言联接操作。 OLE DB for DM模式行集合。,623 数据挖掘的工具,1. 数据挖掘工具分类数据挖掘工具根据其适用的范围分为两

33、类：专用数据挖掘工具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案，采用的是特殊的算法，可以处理特殊的数据，实现特殊的目的，并作了优化；而通用数据挖掘工具不区分具体数据的含义，采用通用的挖掘算法，处理常见的数据类型，可以做多种模式的挖掘，挖掘什么和用什么来挖掘都由用户根据自己的应用来选择。,2. 数据挖掘工具的选择,根据以下几点选择数据挖掘工具：数据挖掘的功能性。数据挖掘工具的可伸缩性。操作的简易性。数据挖掘工具的可视化。数据挖掘工具的开放性。另外对数据挖掘工具还应考虑是否有多种模式、多种算法、多种校验方法，是否有较好的数据选择和转换、较好的操作性能和数据

34、存取能力、接口功能的好坏等。,3. 数据挖掘工具介绍, QUEST QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统，系统具有如下特点：提供了专门在大型数据库上进行各种开采的功能：关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。各种开采算法具有近似线性计算复杂度，可适用于任意大小的数据库。算法具有找全性，即能将所有满足指定类型的模式全部寻找出来。为各种发现功能设计了相应的并行算法。,3. 数据挖掘工具介绍, MineSet MineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘

35、算法和可视化工具，帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet有如下特点： MineSet以先进的可视化显示方法闻名于世。支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据，也可以通过SQL命令执行查询。多种数据转换功能。操作简单、支持国际字符、可以直接发布到Web。,3. 数据挖掘工具介绍, DBMiner DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统。设计目的是把关系数据库和数据开采集成在一起，以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色：能完成多种知识的发现：泛化规

36、则、特性规则、关联规则、分类规则、演化知识、偏离知识等。综合了多种数据开采技术：面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。提出了一种交互式的类SQL语言数据开采查询语言DMQL。能与关系数据库平滑集成。实现了基于客户/服务器体系结构的Unix和PC（Windows/NT）版本的系统。,3. 数据挖掘工具介绍, Intelligent Miner 由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列，它包括Intelligent Miner for Data和Intelligent Miner

37、 for Text。前者可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息，帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等；后者允许企业从文本信息进行数据挖掘，文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。,3. 数据挖掘工具介绍, SAS Enterprise Miner 这是一种在我国的企业中得到采用的数据挖掘工具，比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具，按照“抽样-探索-转换-建模-评估“的

38、方法进行数据挖掘。可以与SAS数据仓库和OLAP集成，实现从提出数据、抓住数据到得到解答的“端到端“知识发现。,3. 数据挖掘工具介绍, SPSS Clementine SPSS Clementine是一个开放式数据挖掘工具，不但支持整个数据挖掘流程，从数据获取、转化、建模、评估到最终部署的全部过程，还支持数据挖掘的行业标准-CRISP-DM。Clementine提供了多种图形化技术，有助理解数据间的关键性联系，指导用户以最便捷的途径找到问题的最终解决办法。其它常用的数据挖掘工具还有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的数据

39、挖掘软件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。,624 数据挖掘的流程,1. 数据挖掘环境人们可以对大型数据库中先前未知的数据进行分析、研究、变换、筛选、过滤、综合和预处理。可以通过可视化的工具对挖掘出的规律和模式进行解释、评价和验证，用户可能要使用各类可视化工具来显示有关数据。,2. 数据挖掘的过程,图6-4 数据挖掘的基本过程和主要步骤,3. 数据挖掘需要的人员,数据挖掘在不同的阶段需要有不同专长的人员，他们大体可以分为以下三类：业务分析人员:要求精通业务，能够解释业务对象，并根据各业务对象确定出用于数据定义和挖掘算法的业

40、务需求。数据分析人员:精通数据分析技术，并对统计学有较熟练的掌握，有能力把业务需求转化为数据挖掘的各步操作，并为每步操作选择合适的技术。数据管理人员:精通数据管理技术，并从数据库或数据仓库中收集数据。,63 数据挖掘系统的组构及管理策略,数据挖掘系统的组成,数据挖掘逻辑模型,数据挖掘系统的架构,数据挖掘管理系统,64 数据挖掘的研究与发展,1. 第一代数据挖掘系统特点支持一个或少数几个数据挖掘算法。挖掘向量数据（vector-valued data）。数据一般一次性调进内存进行处理。典型的系统如Salford Systems公司早期的CART系统(www.salford-) 缺陷

41、如果数据足够大，并且频繁的变化，这就需要利用数据库或者数据仓库技术进行管理。,2. 第二代数据挖掘系统, 特点与数据库管理系统（DBMS）集成。支持数据库和数据仓库，具有高性能的接口和可扩展性。能够挖掘大数据集、以及更复杂的数据集。通过支持数据挖掘模式和数据挖掘查询语言（DMQL）增加系统的灵活性。典型的系统如DBMiner，能通过DMQL挖掘语言进行挖掘操作。缺陷只注重模型的生成，如何和预测模型系统集成导致了第三代数据挖掘系统的开发。,3. 第三代数据挖掘系统, 特点和预测模型系统之间能够无缝的集成，使得由数据挖掘软件产生的模型的变化能够及时反映到预测模型系统中。由数据挖

42、掘软件产生的预测模型能够自动地被操作型系统吸收，从而与操作型系统中的预测模型相联合提供决策支持的功能。能够挖掘网络环境下的分布式和高度异质的数据，能够有效地和操作型系统集成。缺陷不能支持移动环境。,4. 第四代数据挖掘系统, 特点目前移动计算越发显得重要，将数据挖掘和移动计算相结合是当前一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普适（ubiquitous）计算设备产生的各种类型的数据,四代挖掘系统的比较,数据挖掘未来研究方向, 研究在网络环境下的数据挖掘技术数据挖掘技术与特定数据存储类型的适应问题数据挖掘理论与算法研究数据挖掘与数据库、数据仓库和Web数据库系统的集成数据挖掘语言的形式化描述和标准化研究数据挖掘系统的构架与交互式挖掘技术数据挖掘的可视化研究加强对各种非结构化数据的开采对于复杂数据类型进行挖掘的新方法研究数据挖掘中的隐私保护与信息安全,

展开阅读全文