收藏 分享(赏)

数据挖掘 chap1_序论.ppt

上传人:oil007 文档编号:2589600 上传时间:2018-09-22 格式:PPT 页数:36 大小:1.55MB
下载 相关 举报
数据挖掘 chap1_序论.ppt_第1页
第1页 / 共36页
数据挖掘 chap1_序论.ppt_第2页
第2页 / 共36页
数据挖掘 chap1_序论.ppt_第3页
第3页 / 共36页
数据挖掘 chap1_序论.ppt_第4页
第4页 / 共36页
数据挖掘 chap1_序论.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、第 1 章 数据挖掘,ERP实验中心 程春明 Tel:15994464256 2010.3,数据挖掘课件,内容提要,1.1 引言 1.2 数据挖掘成功的例子 1.3 当前研究成果 1.4 新的应用 1.5 影响数据挖掘的趋势 1.6 研究挑战 1.7 实验平台和基础设施,1.1 引言,什么激发了数据挖掘 需要是发明之母 数据爆炸问题 计算机技术快速发展 数据库技术的发展 Internet快速发展 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 每年约160TB 1 PB=1024 TB=1024*1024 GB 我们数据丰富,但信息贫乏

2、 “数据坟墓”,数据挖掘和知识发现,知识发现(Knowledge Discover in Database,KDD ) 从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。(M.Goebel and L.Gruenwald 1999) KDD的出现 基于数据库的知识发现(KDD)一词首次出现在1989年举行的国际人工智能联合大会IJCAI-89 Workshop。 1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD95)。 由Kluwers Publishers出版,1997年创刊的Knowledge Discovery and Data Mining是该

3、领域中的第一本学术刊物。,数据挖掘视为知识发现(KDD)的一个步聚,数据挖掘知识发现的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,预处理及变换,选择,数据挖掘,模式评估,KDD的步骤,从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 确定和逐步理解应用领域 选择所研究的数据集 选择补充数据集。集成这些数据数据集成 数据编码、清理重复和错误数据、变换数据。 开发模型、构建假设。(确定要发现的知识类型) 选择适当的数据挖掘算法(找到感兴趣的模式) 解释结果(可视化) 检验结果 管理发现的知识,数据挖掘定义,数据挖掘(Data Mining,DM) 定义:

4、从大量的数据中提取或“挖掘”感兴趣的知识(规则,规律,模式,约束)。 知识提炼 数据/模式分析 数据考古 数据捕捞、信息收获等等。,课本中的定义,数据挖掘被定义为找出数据中的模式的过程。 这个过程必须是自动的或(通常)半自动的。数据的总量总是相当可观的,但从中发现的模式必须是有意义的,并能产生出一些效益,通常是经济上的效益。 如何表示数据模式? 有价值的模式能够让我们在新数据上做出非凡的预测。表示一个模式有两种极端方法:一种是内部结构很难被理解的黑匣子;一种是展示模式结构的透明的匣子,它的结构揭示了模式的结构。 我们假设两种方法都能做出好的预测,它们的区别在于挖掘出的模式能否以结构的形式表现,

5、这个结构是否能够经得起分析,理由是否充分,能否用来形成未来的决策。如果模式能够以显而易见的方法获得决策结构,我们就称它们为结构模式,换句话说,它们能帮助解释有关数据的一些现象。 这本书是有关寻找、描述存在于数据里结构模式的技术。,描述结构模式,给出隐形眼镜的一组数据。这组数据是验光师针对病人的情况做出的诊断:使用软的隐形眼镜,硬的隐形眼镜,或不能佩戴隐形眼镜。,1.2 数据挖掘的研究领域和方向,数据库、数据仓库与数据分析 统计学 机器学习,数据挖掘与数据分析,数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用

6、信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。 基于数据库和数据仓库 数据挖掘是一个动态过程,比数据分析更智能的使用数据仓库。它将数据宽度、深度和体积作为重要的三个方面来考虑。 宽度(width),数据记录的属性。 深度(width),数据库实体的实例。 体积(width),数据库实体。,数据立方体,A(month) 40个值,B,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1

7、,a0,c3,c2,c1,c 0,b3,b2,b1,b0,a2,a3,C(item) 4000个值,B(city) 400个值,44,28,56,40,24,52,36,20,60,数据挖掘与统计学,统计学分析系统规划的实验,回答完全以公式方式表达的科学问题。 数据少、质量高、可得到数据收集和分析的最佳方法,并可证明。 现实数据:规模大(观测值、变量),其他活动的副产品,数据噪声。 区别: 形式的统计学推断是假设驱动的,即形成假定并在数据上验证它。 DM是发现驱动的,即自动地从数据中提取模式和假设。 DM是数据驱动,统计学是人驱动的。 DM的目标是提取可以容易转换成逻辑规则或可视化表示的定性模

8、型,以人为中心,与人机界面结合,数据挖掘与机器学习,机器学习( Machine Learning)研究构建由经验学习的系统。是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演译。 机器学习跟统计学有着重要的关系,因为这两个领域都是研究数据分析,但是又不像统计学,机器学习关注的是计算实现的算法复杂度。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。 零售商想知道把哪个顾客群或个人作为广告宣传对象 图

9、像识别 科学家想知道导致癌症在家族中蔓延的基因 机器学习为数据挖掘提供了技术基础(模式发现引擎),1.2 数据挖掘简单的例子,所用的例子简单、理想化 数据挖掘真实的应用数据量大,并且是私有的属性。,1.2.1 天气问题,关联规则,1.2.2 隐形眼镜:一个理想化的问题,1.2.3 鸢尾花:一个经典数值型数据集,1.2.4 CPU:介绍数值预测,1.2.5 劳资协商:一个更真实的例子,1.2.6 大豆分类:一个经典的机器学习的成功例子,They gave the correct disease top ranking 97.5% of the time compared with only 72

10、% for the expert-derived rules.,1.3 应用领域,决策包含评判 图像筛选 负载预测 诊断 市场和销售,1.4 数据挖掘成功的例子,1.贝尔大西洋公司 当一个客户反映电话通讯故障后,电话公司必须做出决定派什么技师解决问题。贝尔大西洋公司(Bell Atlantic)在1991年开发了用来做出这个决策的一个专家系统已经在1999年被一组由机器学习得到的规则所替代,这一举措降低了错误决策的数量,因此每年为公司节约1000多万美元。,1.4 数据挖掘成功的例子,2.英国石油分司 成熟的生产制造过程通常涉及调整控制参数。从天然气中分离出原油是对石油进行提炼的一个必不可少的

11、过程,而分离过程的控制是一个比较难的工作。英国石油公司使用机器学习为设置参数建立规则。现在这个过程只需要10分钟,而以往同样的工作,专家们需要花一天多的时间完成。,1.4 数据挖掘成功的例子,3.学习过程控制 西屋公司(Westinghouse)在制造核燃料芯块的过程中,使用机器学习建立规则以控制生产过程。据报道因此他们每年节约超过1000万美元(1984年)。,1.4 数据挖掘其它成功的例子,R.R.Donnelly(一家美国大型印刷分司) 飞行模拟和学习 机器人学习 计算机控制道路车辆 学习赢得十五指棋游戏 试管婴儿 养牛 分子生物学(DNA) 药物发现 制药 天文学 医学 地球物理学 欺

12、诈检测 入侵检测,1.5 当前研究成果,神经网络:是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。也称为“人工神经网络”或“类神经网络”。 神经网络是一种运算模型,由大量的节点(或称神经元,或单元)和之间相互联接构成。 每个节点代表一种特定的输出函数,称为激励函数(activation function)。 每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(weight),这相当于人工神经网络的记忆。 网络的输出则依网络的连接方式,权重值和激励函数的不同而不通。 网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。,支持向量机:一种新算

13、法,最近才出现的数据挖掘实践者的使用工具,是新一代基于统计学习理论的学习系统。 持向量方法从训练集中选择一组特征子集,使得对特征子集的划分等价于对整个数据集的划分,这组特征子集就被称为支持向量(SV)。,基于树的分类方法:树是一种将大数据集分割成小数据集的便捷方式。 应用:信息论、统计学、模式识别、机器学习。,A Decision Tree for “buys_computer”,1.6 新的应用,数据挖掘学科在一定程度上是由新的应用驱动的。这些应用需要新的、不能被今天的技术所支持的能力。 商业和电子商务数据 企业资源计划(ERP)、客户关系系统(CRM)、网络应用 科学、工程和卫生保健数据

14、复杂的科学数据、模拟系统、专家领域系统 Web数据 非结构化,1.7 影响数据挖掘的趋势,数据发展趋势 数据的爆炸式增长、数据分析人员数量稳定,要求数据挖掘技术能更自动,更智能 硬件发展趋势 SMP(Symmetrical Multi-Processing、对称多处理) ,高性能工作站,能解决原先不能解决的问题 网络发展趋势 高速网络的发展,要求有新的协议、算法、语言,更便于在当前和下一代网络进行分布式挖掘 科学计算发展趋势 实验、模拟 商业发展趋势 高质量服务、高利润、低成本、把握机遇、规避风险,1.8 研究挑战(1),数据挖掘算法的可伸缩性 记录或观测数据的增加 每个观测数据的属性数目增加

15、 用于分析观测数据集的预测模型或规则集的数目增加 交互和实时响应要求的增加 提出要求:开发当前DM算法的分布式、并行和非内存版本,真正的新算法 扩展数据挖掘算法到新的数据类型 时间序列和过程数据、非结构数据、半结构数据、多媒体和协同数据、层次和多标度数据、集合数据,1.8 研究挑战(2),开发分布式数据挖掘算法 数据的分块挖掘 易于使用 目前DM还是一个半自动过程 挑战一:开发一个能让偶然使用的用户也能简单方便的使用的DM系统。 挑战二:开发DM和知识发现的环境,处理数据收集、处理、挖掘和可视化过程,以及处理数据和导出信息所需的协同和报告。 隐私和安全 开发安全模型、合适的协议,1.9 实验平台和基础设施,实验研究在推动数据挖掘领域向前发展的过程起着至关重要的作用。 高性能和分布式数据挖掘开发的实验平台 硬件、网络、数据挖掘软件 收集合适数据集 交叉学科和多学科团队,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报