(课件)数据仓库与数据挖掘综述.ppt
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
25 文币 0人已下载
下载 | 加入VIP,免费下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- (课件)数据仓库与数据挖掘综述.ppt
- 资源描述:
-
1、数据仓库与数据挖掘综述,概念、体系结构、趋势、应用,报告人:朱建秋 2001年6月7日,提纲,数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库概念,基本概念 对数据仓库的一些误解,基本概念数据仓库,Data warehouse is a subject oriented, integrated,non-volatile and time variant collection of data in support of managements dec
2、ision Inmon,1996. Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform Ladley,1997. Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure Applet
3、on,1995Haley,1997Gardner 1998.,基本概念数据仓库特征 Inmon,1996,面向主题 一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;) 典型的主题领域:客户;产品;交易;帐目 主题领域以一组相关的表来具体实现 相关的表通过公共的键码联系起来(如:顾客标识号Customer ID) 每个键码都有时间元素(从日期到日期;每月累积;单独日期) 主题内数据可以存储在不同介质上(综合级,细节级,多粒度) 集成 数据提取、净化、转换、装载 稳定性 批处理增加,仓库已经存在的数据不会改变 随时间而变化(时间维) 管理决策支持,基本概念
4、Data Mart, ODS,Data Mart 数据集市 - 小型的,面向部门或工作组级数据仓库。 Operation Data Store 操作数据存储 ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。,基本概念ETL, 元数据,粒度,分割,ETL ETL(Extract/Transformation/Load)数据装载、转换、抽取工具。Microsoft DTS; IBM Visual Warehouse etc. 元数据 关
5、于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。 分割 数据分散到各自的物理单元中去,它们能独立地处理。,对数据仓库的一些误解,数据仓库与OLAP 星型数据模型 多维分析 数据仓库不是一个虚拟的概念 数据仓库与范式理论 需要非范式化处理,提纲,数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库体系结构及组件,体系结构 ETL工具 元数据库(R
6、epository)及元数据管理 数据访问和分析工具,体系结构 Pieter ,1998,Source Databases,Architected Data Marts,Data Access and Analysis,End-User DW Tools,Central Data Warehouse,CentralData Warehouse,Mid- Tier,Mid- Tier,Data Mart,Data Mart,Local Metadata,Metadata Exchange,MDB,Data Cleansing Tool,Relational,Appl. Package,Legac
7、y,External,RDBMS,RDBMS,带ODS的体系结构,Source Databases,Architected Data Marts,Data Access and Analysis,Central Data Ware- house and ODS,CentralData Warehouse,Mid- Tier,RDBMS,Data Mart,Mid- Tier,RDBMS,Data Mart,Local Metadata,Metadata Exchange,ODS,OLTP Tools,End-User DW Tools,现实环境异质性Douglas Hackney ,2001,
8、Custom Marketing Data Warehouse,Packaged Oracle Financial Data Warehouse,Packaged I2 Supply Chain Non- Architected Data Mart,Subset Data Marts,Oracle Financials,i2 Supply Chain,Siebel CRM,3rd Party,e-Commerce,联合型数据仓库/数据集市体系结构,Real Time ODS,Federated Financial Data Warehouse,Subset Data Marts,Common
9、Staging Area,Oracle Financials,i2 Supply Chain,Siebel CRM,3rd Party,Federated Packaged I2 Supply Chain Data Marts,Analytical Applications,e-Commerce,Real Time Data Mining and Analytics,Real Time Segmentation, Classification, Qualification, Offerings, etc.,Federated Marketing Data Warehouse,Front- an
10、d back-office OLTP,e-Business systems,External information providers,CRM Analytics & Reporting,Supply Chain Analytics & Reporting,EKP - Enterprise Knowledge Management Portal,EPM Analytics & Reporting,Business information & recommendations,Informed decisions & actions,Financial Analytics & Reporting
11、,HR Analytics & Reporting,闭环的联合型BI体系结构,数据仓库的焦点问题-数据的获得、存储和使用,Relational,Package,Legacy,External source,Data Clean Tool,Data Staging,EnterpriseData Warehouse,Datamart,Datamart,RDBMS ROLAP,RDBMS,数据仓库和集市的加载能力至关重要 数据仓库和集市的查询输出能力至关重要,ETL工具,去掉操作型数据库中的不需要的数据 统一转换数据的名称和定义 计算汇总数据和派生数据 估计遗失数据的缺省值 调节源数据的定义变化,E
12、TL工具体系结构,元数据库及元数据管理,元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-Alex Berson etc, 1999 技术元数据 包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括: 数据源信息 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法) 目标数据的仓库对象和数据结构定义 数据清洗和数据增加的规则 数据映射操作 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等,元数据库及元数据管理,商业元数据 给用户易于理解的信息,包括: 主题区和信息对象类型,包括查询、报表、图像、音频、视频等 In
13、ternet主页 支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等 数据仓库操作型信息 例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法,元数据库及元数据管理,元数据库(metadata repository)和工具 Martin Stardt,2000,数据访问和分析工具,报表 OLAP 数据挖掘,提纲,数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库设计,自上而下(Top-D
14、own) 自底而上(Bottom Up) 混合的方法 数据仓库建模,Top-down Approach,Build Enterprise data warehouse Common central data model Data re-engineering performed once Minimize redundancy and inconsistency Detailed and history data; global data discovery Build datamarts from the Enterprise Data Warehouse (EDW) Subset of E
15、DW relevant to department Mostly summarized data Direct dependency on EDW data availability,Local Data Mart,External Data,Local Data Mart,Operational Data,自底而上设计方法,创建部门的数据集市 范围局限于一个主题区域 快速的 ROI - 局部的商业需求得到满足 本部门自治 - 设计上具有灵活性 对其他部门数据集市是一个好的指导 容易复制到其他部门 需要为每个部门做数据重建 有一定级别的冗余和不一致性 一个切实可行的方法 扩大到企业数据仓库 创
16、建EDB作为一个长期的目标,局部数据集市,操作型数据 (局部),局部数据集市,企业数据仓库 EDB,数据仓库建模 星型模式,Example of Star Schema,数据仓库建模 雪片模式,Date Month,Date,Sales Fact Table,Date,Product,Store,Customer,unit_sales,dollar_sales,Yen_sales,Measurements,Month Year,Month,Year,Year,Example of Snowflake Schema,操作型(OLTP)数据源 - 销售库,星形模式,时间维,事实表,多维模型,提纲,
17、数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库技术 Inmon,1996,管理大量数据 能够管理大量数据的能力 能够管理好的能力 管理多介质(层次) 主存、扩展内存、高速缓存、DASD、光盘、缩微胶片 监视数据 决定是否应数据重组 决定索引是否建立得不恰当 决定是否有太多数据溢出 决定剩余的可用空间 利用多种技术获得和传送数据 批模式,联机模式并不非常有用 程序员/设计者对数据存放位置的控制(块/页) 数据的并行存储/管理 元数据管理,数据仓库技
18、术 Inmon,1996,数据仓库语言接口 能够一次访问一组数据 能够一次访问一条记录 支持一个或多个索引 有SQL接口 数据的高效装入 高效索引的利用 用位映像的方法、多级索引等 数据压缩 I/O资源比CPU资源少得多,因此数据解压缩不是主要问题 复合键码(因为数据随时间变化) 变长数据 加锁管理(程序员能显式控制锁管理程序) 单独索引处理(查看索引就能提供某些服务) 快速恢复,数据仓库技术 Inmon,1996,其他技术特征,传统技术起很小作用 事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图 传统DBMS与数据仓库DBMS区别 为数据仓库和决策支持优化设计 管理更多数据:10GB
19、/100GB/TB 传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退 Roolback. 基本数据管理,如:块管理,传统DBMS需要预留空间 索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制 通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析 改变DBMS技术 多维DBMS和数据仓库 多维DBMS作为数据仓库的数据库技术,这种想法是不正确的 多维DBMS(OLAP)是一种技术,数据仓库是一种体系结构的基础 双重粒度级别(DASD/磁带),数据仓库技术 Inmon,1996,
20、数据仓库环境中的元数据 DSS分析人员和IT专业人员不同,需要元数据的帮助 操作型环境和数据仓库环境之间的映射需要元数据 数据仓库包含很长时间的数据,必须有元数据标记数据结构/定义 上下文和内容(上下文维) 简单上下文信息(数据结构/编码/命名约定/度量) 复杂上下文信息(产品定义/市场领域/定价/包装/组织结构) 外部上下文信息(经济预测:通货膨胀、金融、税收/政治信息/竞争信息/技术进展) 刷新数据仓库 数据复制(触发器) 变化数据捕获(CDC)(日志),提纲,数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概
21、述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库性能 Inmon, 1999,使用 数据 平台 服务管理,王天佑 等译,数据仓库管理, 电子工业出版社,2000年5月,提纲,数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目),数据仓库应用 DW用户数的调查,“DW系统的用户 在100-500以内或以上 是未来一段时期内 的主要部分“,DW用户的调查 最近一年 Meta Group Survey 调查对象:3000+ 用户或意向用户,DW数据规
22、模的调查,DW规模的调查 最近一年 Meta Group Survey 调查对象:3000+ 用户或意向用户,How Much?,$3-6m for mid-size company, less if smaller, more if larger $10m+ for large organizations, large data sets 10-50+% annual maintenance costs 33% Hardware / 33% Software / 33% Services,How Long?,2-4 years for 80/20 of full system for mid
23、-size company 6-12 months for initial iteration 3-6 months for subsequent iterations,How Risky?,For EDW Projects, 20% (Meta) to 70% (OTR, DWN) fail High failure rate for non-business driven initiatives Very few systems meet the expectations of the business Failure not due to technology, due to “soft
24、” issues Massive upside to successful projects (100% - 2000+% ROI) 99% politics - 1% technology,参考文献,Inmon,W.H.,” Building the Data Warehouse” ,Johm Wiley and Sons,1996. Ladley,John,”Operational Data Stores:Building an Effective Strategy”,Data warehouse:Pratical Advice form the Experts,Prentice Hall
展开阅读全文