收藏 分享(赏)

《数据仓库与数据挖掘》课件PPT_1_数据仓库与数据挖掘概述.ppt

上传人:微传9988 文档编号:2175118 上传时间:2018-09-04 格式:PPT 页数:43 大小:102KB
下载 相关 举报
《数据仓库与数据挖掘》课件PPT_1_数据仓库与数据挖掘概述.ppt_第1页
第1页 / 共43页
《数据仓库与数据挖掘》课件PPT_1_数据仓库与数据挖掘概述.ppt_第2页
第2页 / 共43页
《数据仓库与数据挖掘》课件PPT_1_数据仓库与数据挖掘概述.ppt_第3页
第3页 / 共43页
《数据仓库与数据挖掘》课件PPT_1_数据仓库与数据挖掘概述.ppt_第4页
第4页 / 共43页
《数据仓库与数据挖掘》课件PPT_1_数据仓库与数据挖掘概述.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、数据仓库与数据挖掘,第 1 章,数据仓库与数据挖掘概述,第1章,1.1 数据仓库概述 1.2 数据挖掘概述 1.3 数据仓库和数据挖掘的结合,1.1 数据仓库概述,1.1.1 从数据库到数据仓库1.1.2 从OLTP到OLAP1.1.3 数据字典与元数据1.1.4 数据仓库的定义与特点,1.1.1 从数据库到数据仓库,(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支持决策,1.数据库用于事务处理,数据库作为数据资源用于管理业务中的事务处理。它已经成为了成熟的信息基础设施。数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新

2、数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。,2.数据仓库用于决策分析,数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大,3.数据库与数据仓库对比,1.1.2从OLTP到OLAP,1.联机事物处理(OLTP)2.联机分析处理(OLAP)3.OLTP与OLAP的对比,1.联机事物处理(OLTP),联机事物处理(On Line Transaction Proc

3、essing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP应用要求多个查询并行,以便将每个查询分布到一个处理器上。,OLTP的特点在于事务处理量大,但事务处理内容比较简单且重复率高。OLTP处理的数据是高度结构化的,涉及的事务比较简单,数据访问路径是已知的,至少是固定的。OLTP面对的是事务处理操作人员和低层管理人员。,2.联机分析处理(OLAP),决策分析需要对多个关系数据库共同进行大量的综合计算才能得到结果。E.F.Codd在1993年提出了多维数据库和多维分析的概念,即联机分析处理(On Line Anal

4、ytical Processing,OLAP)概念。OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。,3.OLTP与OLAP的对比,1.1.3 数据字典与元数据,1. 数据库的数据字典2.数据仓库的元数据,1. 数据库的数据字典,数据字典是数据库中各类数据描述的集合 。 (1) 数据项 (2) 数据结构 (3) 数据流 (4) 数据存储 (5) 处理过程,2.数据仓库的元数据,在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。 元数据(metadata)定义为关于数据的数据(data about data),即

5、元数据描述了数据仓库的数据和环境。,数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据 : (1) 关于数据源的元数据 (2) 关于抽取和转换的元数据 (3) 关于最终用户的元数据,1.1.4数据仓库的定义与特点,1.数据仓库定义(1)W.H.Inmon在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,(2)SAS软件研究所观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,2. 数据仓库特点,(1)数据仓库是面向主题的主题是数据归类的标准,每一个

6、主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。,(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,(3)数据仓库是稳定的(不更新的)数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是根本不更新或极少更新的。(4)数据仓库是随时间变化的数据仓库

7、内的数据有时限,如510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,(5)数据仓库的数据量很大大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)(6)数据仓库软、硬件要求较高需要一个巨大的硬件平台需要一个并行的数据库系统,1.2 数据挖掘概述,1.2.1 从机器学习到数据挖掘1.2.2 数据挖掘含义1.2.3 数据挖掘与OLAP的比较1.2.4 数据挖掘与统计学,1.2.1 从机器学习到数据挖掘,学习是人类具有的智能行为,主要在于获取知识。机器学习是

8、研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。机器学习是人工智能领域中的重要研究方向。20世纪60年代开始了机器学习的研究。,1.2.1 从机器学习到数据挖掘,(1) 1980年在美国召开了第一届国际机器学习研讨会;明确了机器学习是人工智能的重要研究方向(2) 1989年8月于美国底特律市召开的第一届知识发现(KDD)国 际学术会议;首次提出知识发现概念(3) 1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议;首次提出数据挖掘概念(4) 我国于1987年召开了第一届全国机器学习研讨会。,1.2.2数据挖掘含义,知识发现(KDD):从数据中发现有用知识

9、的整个过程。数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。如在人类数据库中挖掘知识为:(头发=黑色)(眼睛=黑色)亚洲人该知识覆盖了所有亚州人的记录。,1.2.3 数据挖掘与OLAP的比较,1. OLAP的多维分析OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。2. 数据挖掘数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。,1.2.4 数据挖掘与统计学,统计学与国家政治有紧密的关系。支配着社会现象的法则和方法是概率论。通过对全部对象(总体)进行调查,为制定计划和决策提供依据。,统计学

10、中应用于数据挖掘的内容,(1)常用统计 (2)相关分析 (3)回归分析 (4)假设检验 (5)聚类分析 (6)判别分析 (7) 主成份分析,统计学与数据挖掘的比较,统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。,1.3 数据仓库和数据挖掘的结合,1.3.1 数据仓库和数据挖掘的区别与联系1.3.2 基于数据仓库的决策支持系统1.3.3 数据仓库与商业智能,1.3.1 数据仓库和数据挖掘的区

11、别与联系,1. 数据仓库与数据挖掘的区别2.数据仓库与数据挖掘的关系3.数据仓库中数据存储特点4.数据仓库中数据挖掘特点,1. 数据仓库与数据挖掘的区别,数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。,2.数据仓库与数据挖掘的关系,数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。,数据挖掘用于数据仓库实现决策支持,如: (1)预测客户购买倾向; (2)客户利润贡

12、献度分析; (3)分析欺诈行为; (4)销售渠道优化分析等。数据仓库和数据挖掘的结合对支持决策会起更大的作用。,3.数据仓库中数据存储特点,由于数据仓库不同于数据库,数据挖掘也随之发生变化。 (1)数据存储方式的不同(2)数据存储的数据量的不同(3)数据存储的结构不同,4.数据仓库中数据挖掘特点,(1)数据挖掘从数据仓库中挖掘更深层次的信息(2)数据仓库为数据挖掘提出了新要求数据挖掘需要可扩展性数据挖掘方法需要能挖掘多维知识,1.3.2 基于数据仓库的决策支持系统,数据仓库的决策支持功能有: (1) 对当前和历史数据完成查询和报表处理 (2) 可以用不同方法进行“如果,将怎样(what-if)

13、”分析 (3) 从综合数据到细节数据,深入追踪钻取查 询,寻找问题出现原因 (4) 认清过去的发展趋势,并将其应用于对未来结果的分析,数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。,1.3.3数据仓库与商业智能,1. 商业智能的概念2. 商业智能辅助制定更好更快的决策,1. 商业智能的概念,商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。商业智能与新决策支持系统从组成和目标来看是一致的。但是,商业智能是一种技术,新决策支持系统是解决实际决策问题的一个系统。可以理解为:新决策支持系统是利用商业智能技术来解决实际决策问题的系统。,2. 商业智能辅助制定更好更快的决策,(1)信息共享 (2)实时反馈分析 (3)鼓励用户找出问题的根本原因 (4)使用主动智能 (5)实时智能,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报