收藏 分享(赏)

第5章-数据开采技术.ppt

上传人:weiwoduzun 文档编号:5584753 上传时间:2019-03-08 格式:PPT 页数:41 大小:1,023.01KB
下载 相关 举报
第5章-数据开采技术.ppt_第1页
第1页 / 共41页
第5章-数据开采技术.ppt_第2页
第2页 / 共41页
第5章-数据开采技术.ppt_第3页
第3页 / 共41页
第5章-数据开采技术.ppt_第4页
第4页 / 共41页
第5章-数据开采技术.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

1、第5章数据开采技术,引言,研究背景及意义,国内外研究现状,数据库中知识发现(knowledge discovery in database,KDD)一词首先出现在1989年8月在美国底特律召开的第11届国际人工智能会议(The 11th International Joint Conference on AI)。1999年,亚太地区在北京召开了第三届PAKDD会议,收到158篇论文,电子工程师学会(Institute of Electrical and Electronic Engineers,IEEE)的Knowledge and Data Engineering会刊率先在1993年出版了K

2、DD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题讨论,甚至到了脍炙人口的程度。到目前为止,由美国人工智能协会主办的KDD国际研讨会已召开了多次,规模由原来的专题讨论会发展到国际学术大会;研究重点逐渐从发现方法的研究转向实际的系统应用,注重发现多种策略和技术的集成,以及多种学科之间的渗透。,国内:,数据开采的定义,数据开采(data mining),又译作数据挖掘、数据采掘,还有的译成数据发掘。一种比较公认的数据开采定义是W.J.Frawley、G.Piatetsky、Shapiro 等人提出的: 数据开采就是从大型数据库的数据中提取人们感兴趣

3、的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(concepts)、规则(rules)、规律(regularities)、模式(patterns)等形式。 这种定义把数据开采的对象定义为数据库。而更广义的说法是,数据开采意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。数据开采的对象不仅是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,例如WWW信息资源。,与知识发现的区别:数据开采的任务是发现可以理解的知识, 而机器学习关心的是提高系统的性能,因此训练神经网络来控制一 根倒立棒是一种机器学习过程,但不是数据开采;数据开采的对象 是大型的数据库,一般来

4、说机器学习处理的数据集要小得多,因此 效率问题对数据开采是至关重要的 。,数据开采处于影响空间中, 从中可以看出数据开采在整个决策支持中所处的重要地位。,决策支持空间,数据开采的过程及分类,数据开采的过程,根据发现知识的种类,根据采用的技术分类,人工神经网络,决策树,遗传算法,最近邻技术,可视化,规则归纳,数据开采的分类,最后均走上数据开采的道路,DMKD的研究主 的3个技术支柱,数据库,人工智能,数理统计,查询是数据库的奴隶,发 现才是数据库的主人,知识获取、知识表示、基 本常识成为三大难题,进入DMKD行业,数据仓库作为一种新型的数据存储地,为数据开采提供了新的支持平台。可以预见,数据仓库

5、以其内在的对决策的支持能力,将会成为数据开采的主战场。数据仓库的发展不仅仅是为了数据开采开辟了新的空间,更对数据开采技术提出了新的要求。 数据仓库环境下的数据开采,2,数据仓库环境中的数据开采的新特点:,数据开采方法,聚类,定义:聚类是把一组个体相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能的大。 方法:统计方法、机器学习方法、神经网络方法和面向数据库的方法,神经网络,一个6结点的前馈神经网络,神经网络一个输入结点的运算,神经网络方法的优点和缺点: 神经网络因为不能解释发现的关系,常被看做黑箱。它只能输入数字数据,这就意

6、味着非数字数据需要转换。另外,输入还需要归一为0至1之间。神经网络通过很好的训练能快速预测新的案例,训练阶段是非常精密的,需要选择合适的数字和控制过度匹配。神经网络的一个缺点是它永远不是非常精确,即使永远训练。,关联规则开采方法,关联规则挖掘算法可以分解为两个子问题。 (1) 找到所有支持度大于最小支持度的项集(itemset),这些项集称为频集(frequent itemset)。 (2) 使用第1步找到的频集产生期望的关联规则,定义:所谓决策树就是一个类似流程图的树状结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表测试的每个结果;而树的每个叶结点就代表一个类型。树的最高

7、层结点就是根结点基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树。决策树所表示的分类知识可以被抽取出来并可用ifthen分类规则形式加以表示。从决策树的根结点到任一个叶结点所形成的一条路径就构成了一条分类规则。沿着决策树的一条路径所形成的属性值偶对就构成了分类规则条件部分(if部分)中的一个合取项;叶结点所标记的类别就构成了规则的结论内容(then部分)。ifthen分类规则表达方式易于被人理解,且决策树较大时,ifthen规则表示形式的优势就更加突出。,决策树,定义:数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息的数据

8、开采技术被称为数据汇总(data generalization)。 两种方法:数有数据立方体和面向属性 数据立方体(多维数据库)方法的主要思想是将那些经常查询、代价高昂的运算,如Count、Sun、Average、Max和Min等汇总函数具体化,并存储在一个多维数据库中,为决策支持、知识发现及其他应用服务。 面向属性的抽取方法用一种类SQL数据开采查询语言表达查询要求,收集相关数据,并利用属性删除、概念层次树、门槛控制、数量传播及集合函数等技术进行数据汇总。汇总数据用汇总关系表示,可以将数据转化为不同类型的知识;或将其映射成不同的表,并从中抽取特征、判别式和分类等相关规则。,多层次数据归纳汇总

9、,属性city的概念层次树,空间数据开采技术帮助人们从庞大的空间数据中抽取有用信息 方法:,空间数据库的开采,1. 粗集(rough set)方法 在数据库中将元素看成对象,将列元素看成属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个或几个属性上取值相同,满足等价关系的对象组成的集合被称为等价关系R的等价类。 2. 遗传算法 模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)3个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。 3. 公式发现 在工程和科学数据库中,对若干数据项进行一定的数学运算,求得相应的数学公式。BACON发现系统完成了

10、对物理学大量定律的重新发现。 4. 统计分析方法 在数据库字段项之间存在两种关系: 函数关系和相关关系,对它们的分析可采用回归分析、相关分析、主成分分析等方法。 5. 模糊集合方法 利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就越低,模糊性就越强,这是Zadeh总结出的互克性原理。 6. 可视化技术 拓宽了传统的图表功能,使用户对数据剖析更清楚。 另外,还有归纳逻辑程序(inductive logic programming)、Bayesian网络等方法。,数据开采的其他方法,云的概念经常用图形表示,云的几何形状对理解定性和定量之间

11、的转换很有帮助。云由相当多的云滴组成,云的整体反映一个定性概念(即语言值),对应的数值域作为自变量。 “年龄”的几个定性概念和数值间的转换,发现状态空间是一个三维立体空间,是发现系统实施多种发现算法的运作空间。在一个二维的平面基底知识基上逐步抽象。知识基是原始数据库经数据汇集处理后得到的二维表。它汇集了原始数据库中发现任务相关的所有数据的总体特征,是知识发现状态空间的基底,也可以认为是最初始的知识模板。 在发现状态空间内进行的多种知识汇集操作分成3个方向: 面向属性的操作、面向宏元组的操作和面向整个模板的操作。 在OA方向(attribute oriented)的操作是面向属性的操作,是对属性

12、之间关系的认识和发现活动。 在OM方向(macro tuples oriented)的操作是面向宏元组的操作,是微观到宏观发现知识的过程;是一块知识模板上升到抽象级别更高的另一块模板;是以归纳为核心的知识发现活动。 在OT方向(oriented template)上的操作,反映了知识模板由微观向宏观的跃升,主要操作有概念树的生成和调节、跳跃步长的确定、规则置信度阈值的调节、域间抽象层次适配性检查、概念提升、发现知识的验证和评价种。,发现状态空间理论,将基于云模型的泛化方法与Apriori算法结合起来,从空间数据库中 发掘关联规则,实验显示了其有效性、高效性和灵活性。用著名的Apriori算法作

13、为发掘关联规则的基本算法,并把它与基于 云模型的属性普遍化方法结合起来,在任意概念层次上发现关联规则。例:关联规则的可视化(如图)(关于人均年收入的关联规则),用云模型从空间数据库中发掘关联规则,结果表明了在发掘关联规则的预处理中语言云模型的有效性。基于云 模型的普遍化方法能较好地模拟人类的思维,使得发掘出的知识具有稳健性。,规则,数据仓库的基本特征 : 数据仓库是面向主题的 数据仓库是集成的 数据仓库是稳定的 数据仓库是随时间而变的 数据仓库作为决策支持系统的一种有效可行的体系化解决方案,包括 数据仓库技术(data warehouse,DW)、 联机分析技术(online analytic

14、al processing,OLAP) 数据开采技术(data mining,DM),数据仓库的引入,模糊数据开采方法,模式发现,在数据仓库的全体数据记录上, 建立带分类的样本集U,建立模数相似关系,预测,求各模式平均指标,预测,数据开采与DBMS和联机分析处理的区别与联系 数据开采的两个层次: 1、在较浅的层次上利用现有数据库管理系统的查询检索、报表功能与多维分析、统计分析方法相结合,进行所谓联机分析处理(online analytical processing,OLAP),从而得出可供决策参考的统计分析数据。2、在较深层次上,若是要求从数据库或大量数据记录中发现潜在的规律性,或隐含的模式等

15、前所不知而最终可以理解并加以利用的知识 。A在数据开采这一新概念产生之前及发展初期,不属于数据开采的范畴。但是,就决策支持的需要而言,二者可起到相辅相成的作用。广义地理解,也可以把A视为数据开采的一种方法。尽管如此,二者解答的问题还是有所不同,5个步骤: (1)选择和准备待开采的数据。 (2)对待开采数据进行预处理,主要是通过净化(排除干扰)、减缩、转换、群聚、分类等手段降低数据的复杂性,并且重新加以组织,即组成“专业化”的、可操作的数据仓库(data warehouse)。 (3) 研究开发一种或多种数据开采工具,例如,IBM的IDM和SGI的Mine Set等。 (4) 用数据开采工具来发

16、现未知的知识。 (5) 运用所发现的知识于决策支持,达到事业和企业单位的特定目标。,数据开采的方法和实施过程,数据开采的基本过程,智能算法,计算智能,1、神经计算,2、演化计算,3、模糊计算或模糊推理,CI特点:它不需要建立问题本身的精确(数字或逻辑)模型, 也不依赖于知识表示,而是直接对输入数据进行处理得出结果,数据开采工具,根据所采用的技术,(1) 基于规则和决策树的工具。 (2) 基于神经元网络的工具 (3) 数据可视化方法 (4) 模糊发现方法 5) 统计方法 (6) 综合多方法,1. 处理不同类型数据 2. 数据快照和时间戳方法 3. 数据开采算法的有效性和可测性 4. 交互性用户界

17、面 5. 在多抽象层上交互式开采知识 6. 从不同数据源开采信息 7. 私有性和安全性 8. 和其他系统的集成 9. 因特网上的知识发现,数据开采的发展方向,SAS支持各层次用户 (1) 业务水平和数学水平可能比较一般的人 (2)业务水平较高但数学水平一般,且没有时间和兴趣再钻研数学方法的人 (3)有计算机和数学知识,但对业务的熟悉程度一般的人员 (4) 有很深计算机知识和数学造诣的数据分析专家,不仅要提供上述环境,而且还要提供实现各种算法的工具和开发平台。,数据开采提供决策支持,SAS研究所不仅有丰富的工具供用户选用,而且在多年的数据处理 研究工作中积累了一套行之有效的数据开采方法论SEMMA sample数据取样 explore数据特征探索、分析和预处理 modify问题明确化、数据调整和技术选择 model模型的研究和知识的发现 assess模型和知识的综合解释和评价,数据开采的方法论,数据开采的方法论,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报