1、数据仓库 与 数据挖掘讲座,同济大学 经济与管理学院 黄立平 教授,数据库技术的发展,收集和数据库创建 ( 20世纪60年代和更早 ) -原始文件处理数据库管理系统(20世纪70年代)-层次、网状、关系数据库系统-数据建模工具:实体-联系(ER)模型等-索引和数据组织技术-查询语言:SQL 、用户界面:表单、报告等-查询处理和查询优化、事务并发控制等 -联机事务处理(OLTP),高级数据库系统 ( 80年代中期现在 )-高级数据模型: 扩充关系、面向对象、对象-关系-面向应用:空间的、时间的、多媒体的、主动的、科学的、知识库数据仓库和数据挖掘 (80年代后期现在)-数据仓库和OLAP技术-数据
2、挖掘和知识发现 基于Web的数据库系统 (90年代现在)-基于XML的数据库系统-Web 挖掘,数据库应用中存在的问题,“数据丰富,信息贫乏”。存储了大量数据的数据库变成了“数据坟墓”难以再访问的数据档案;在大型数据库中快速增长着海量数据,理解数据的含义已经远远超出了人的能力;领导者的重要决策往往无法、及时获得信息,因为缺乏从海量数据中提取有价值知识的工具;若在当前运行的操作数据库中获取信息,则影响数据库的使用和性能。,海量数据要求强有力的数据分析工具,以前的专家系统依赖用户或某领域的专家人工地将知识输入知识库;这一过程常常有偏差和错误,并且耗时、费用高;使用数据挖掘工具进行数据分析;可以发现
3、重要的数据模式,对商务决策、知识库、科学和医学研究作出了巨大贡献;数据和信息之间的差距,要求系统地开发数据挖掘工具,将沉寂的数据转换成宝贵的知识。,(4) 传统数据库使用OLTP联机事务处理方式,进行数据组织时考虑记录每一笔业务的情况;数据仓库使用OLAP联机分析处理方式,进行数据分析处理,以主题为单位组织数据,例如:供应商、商品、顾客等。(5) 面向主题的数据组织方式要求将数据组织成主题域,各主题域之间有明确的界限(独立性),在某一主题内的数据应该包括分析处理所要求的一切数据(完备性)。,集成的(integrated):(1) 构造数据仓库是将多个不同的数据源,如关系数据库、一般文件和联机事
4、务处理记录,集成在一起。(2) 将多个系统的数据进行计算和整理,保证DW的数据是关于整个系统的、一致的、全局的。使用数据清理和数据集成技术,确保命名约定、编码结构、属性等的数据结构一致性。 保证各数据源中数据的一致性。,不更新的 (nonvolatile):(1)访问数据仓库主要是两种方式:数据的插入和查询。修改和删除操作很少 。(2) DW的数据与操作环境下的应用数据分开存放。因此,数据仓库不需要在操作环境下事务处理、恢复和并发控制等机制。,随时间变化的(time-variant):(1)数据仓库记录了从过去某一时间到目前的各个阶段的信息,通过这些信息,可以表明发展历程并对未来的趋势作出定量
5、分析和预测。 (2) DW的数据结构,隐式或显式地包含时间元素;其包含的大量综合数据也与时间相关,例如:月产量。(3) DW随时间变化不断增加新的数据内容;去掉超过时限(例如:510年)的数据。,DW概念总结:数据仓库是一种语义上一致的数据存储体系结构;DW是决策支持数据模型的物理实现,并存放企业战略决策所需信息;DW通过将异种数据源中的数据集成在一起构造而成;完成各种数据查询、信息分析报告和决策支持。,操作型数据库系统与数据仓库的区别,操作型数据库系统的主要任务是执行联机事务和查询处理,称为联机事务处理 (OLTP) 系统。它涵盖了一个组织的大部分日常操作,如采购、制造、库存、销售、财务、银
6、行等事务。DW在数据分析和决策方面为决策者提供服务。可以用不同的格式去组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为联机分析处理(OLAP)系统。,数据仓库的数据模型 数据仓库和OLAP通常是基于多维数据模型。该模型将数据看作数据立方体(data cube)形式。数据立方体由维和事实来定义;以多维的形式对数据建模和观察。维是关于一个组织想要记录的透视或实体。事实是面向某一主题的数据度量,它表示了多个 分析维之间的分析结果。多维数据模型通常有星型和雪花型两种形式。,1. 维 维是人们观察数据的特定角度。例如:时间维是商品销售随时间推移发生的变化;地理维是商品在不同地区的销售分布情况
7、。 2. 维的层次 某个维以下存在的对细节的多个描述方面,例如:时间维有年、季度、月、日等不同层次。 3. 维成员 维的一个取值是该维的一个成员。,4. 多维数组一个多维数组可以表示为(维1,维2,维3,维n, 变量); 例如:(地区、时间、销售渠道、销售额)5. 数据单元 多维数组的取值是数据单元。例如: (上海,2002年2月,批发,2188),OLTP和OLAP的主要区别 服务对象: OLTP是面向顾客的,用于办事员、客户和信息技术专业人员的事务和查询处理。 OLAP是面向市场的,用于经理、主管和信息分析人员的数据分析。 数据内容:OLTP系统管理当前数据。这种数据太琐碎,难以用于决策。
8、 OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。数据易于用作中、高层的决策过程。,数据库设计: OLTP系统采用E-R模型和面向应用的数据库设计。 OLAP系统采用星型或雪花模型和面向主题的数据库设计 视图: OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。 OLAP系统由于组织的变化常常跨越数据库模式的多个版本。 OLAP系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存放在多个存储介质上。,访问模式:对OLTP系统的访问主要由短的原子事务组成。这种系统需要并行控制和恢复机制。对
9、OLAP系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。OLTP和OLAP的其他区别: 包括数据库大小、操作的频繁程度、性能度量等。,OLTP系统和OLAP系统的比较表,特 性 OLTP OLAP 特征 操作处理 信息处理 面向 事务 分析 用户 办事员、客户、数据库专业人员 经理、主管、分析员 功能 日常操作 长期信息需求,决策支持 DB设计 基于E-R,面向应用 星型/雪花,面向主题 数据 当前的,确保最新 历史的,跨时间维护 汇总 原始的,高度详细 汇总的,统一的 视图 详细,一般关系 汇总的,多维的 工作单位 短的,简单事务 复杂
10、查询 存取 读/写 大多为读 关注 数据输入、存储 信息输出 操作 主关键字上索引/散列 大量扫描 访问记录数量 数十个 数百万 用户数 数千 数百 DB规模 100MB到GB 100GB到TB 优先 高性能,高可用性 高灵活性,端点用户自治 度量 事务吞吐量 查询吞吐量,响应时间,数据仓库为什么是分离的?操作型数据库存放了大量数据,为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造一个与之分离的数据仓库?主要原因是提高两个系统的性能。操作数据库是为已知的任务和负载设计的,如使用主关键字索引,检索特定的记录和优化查询;数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算
11、,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。,操作型数据库: 支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制,以确保数据的一致性和完整性。 数据仓库: 对数据记录进行只读访问,以进行汇总和聚集。 如果OLTP和OLAP都在操作型数据库上运行,会大大降低数据库系统的吞吐量。 总之,数据仓库与操作数据库分离是由于这两种系统中数据的结构、内容和用法都不相同。,两种系统的数据结构、内容和用法都不相同,操作型数据库一般不维护历史数据,其数据很多,但对于决策是远远不够的。数据仓库系统用于决策支持需要历史数据,将不同来源的数据统一(如聚集和汇总),产生高质量、一致和集成的数据。操作
12、型数据库只维护详细的原始数据(如事务),这些数据在进行分析之前需要统一。 由于两个系统提供很不相同的功能,需要不同类型的数据,因此需要维护分离的数据库。,多维数据模型,数据仓库和OLAP基于多维数据模型。该模型将数据看作数据立方体(data cube)形式。数据立方体允许以多维对数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的视图或实体。 例如,商店可能创建一个数据仓库sales,记录商店的销售,涉及维 time,item(商品类),branch(分店)和 location(地点)。这些维使得商店能够记录商品的月销售,销售商品的分店和地点。,主题:多维数据模型围绕中心主题(例如sa
13、les)组织。主题用事实表表示。事实是用数值度量的。根据它们分析维之间的关系。例如,sales销售数据仓库的事实包括dollars_sold(销售的款项),units_sold(销售量)和amount_budgeted(预销量)。 事实表包括事实的名称,以及每个相关维表的关键字。,例:某连锁商店的销售数据按照维time季度,item商品类的2-D视图(其中销售数据是取自Location=“Vancouver”的所有分店,销售金额单位是1000美元)。 item(商品类) _ 季度 家庭娱乐 计算机 电 话 安全设备 Q1 605 825 14 400 Q2 680 952 31 512 Q3
14、812 1023 30 501 Q4 927 1038 38 580,以三维角度观察该连锁商店的销售数据。例如,根据time,item和location城市观察数据。location是Chicago, New York,Toronto和Vancouver。location“Chicago” ;location“New York” . (该市上述二维表 略) (该市上述二维表 略),多维数据库模型: 星型、雪花型,关系数据库设计广泛使用ER数据模型。数据库模式由实体的集合和它们之间的联系组成。这种数据模型适用于联机事务处理。数据仓库需要简明的、面向主题的模型,便于联机数据分析。数据仓库数据模型是
15、多维数据模型。这种模型有星型模式、雪花模式等。,星型模式(star schema):是数据仓库最常见的数据模型,其中包括: (1)事实表:包含大批数据和不含冗余的中心表;(2)一组小的附属表( 维表 ),每一维一个。维表围绕中心表显示在连线上。 例:某连锁商店的星型模式如下图所示。sales有四个维,分别是time,item,branch(分店)和location。该模式包含一个中心事实表sales,它包含四个维的关键字和两个度量dollars_sold销售的款项和units_sold销售量。,在星型模式中,每一维只用一个表表示,每个表包含一组属性。例如,location维表包含属性集loca
16、tion_key, street, city, province_or_state, country。,sales 数据仓库的星型模式time sales item维表 事实表 维表time_key - time_key item_nameday item_key - item_keyday_of_the_week units_sold brandmonth dollars_sold type quarter location_key supplier_type year branch_key | |branch维表 location维表branch_key location_keybranc
17、h_name streetbranch_type city province_or_statecountry,雪花模型(snowflake schema),雪花模型是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。结果,模型图形成类似于雪花的形状。雪花模型和星型模型的主要不同在于,雪花模型的维表可能是规范化形式,以便减少冗余。这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。由于执行查询需要更多的连接操作,雪花模型可能降低浏览的性能。数据仓库系统的性能可能受到影响。在数据仓库设计中,雪花模式不如星型模式使用广泛。,该连锁商店sales的雪
18、花模型在下图给出。这里,sales事实表与上面的星型模型相同。两个模式的主要不同是维表。星型模型中的item的单个维表在雪花模型中被规范化,导致新的item表和supplier供应商表。例如,现在item维表包含属性item_key, item_name, brand ,type和supplier_key,supplier_key连接到supplier维表。而supplier维表包含信息supplier_key和supplier_type。类似地,星型模型中location的单个维表被规范化成两个表:新的location和city。新的location表中的location_key现在连接到c
19、ity维。根据需要雪花模型还可以进一步规范化。,sales数据仓库的雪花模式,time sales item维表 事实表 维表 time_key - time_key item_name day item_key -item_key day_of_the_week units_sold brand month dollars_sold type supplier 维表 quarter location_key supplier_type - supplier_key year branch_key | (规范化)supplier_type| |branch维表 location维表 (规范化)
20、branch_key location_keybranch_name street city维表branch_type city - city_keyprovince_or_state country,什么是数据挖掘?数据挖掘DM(Data Mining)是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘,有价值的知识、规则或高层次的信息能就从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识管理服务。,数据挖
21、掘在一些文献中也有其他名称,如数据开采、知识挖掘、知识抽取、知识考察等。 数据挖掘是知识发现KDD的一个关键步骤,它包括特定的数据挖掘算法,具有可接受的计算效率,生成特殊的模式。 KDD是利用数据挖掘算法,按指定方式和阈值抽取有价值的知识,包括数据挖掘前对数据的预处理、抽样及转换和数据挖掘后对知识的评价解释过程。,数据挖掘的特点,所处理的数据规模十分巨大。 寻找决策所需的信息。 数据挖掘既要发现潜在规则,还要管理和维护规则。 数据挖掘中规则的发现主要基于大样本的统计规律,发现的规则不必适用于所有数据,当达到某一阈值时便可认为有此规律。,数据挖掘的分类根据所开采的数据库类型、发现的知识类型、采用
22、的技术类型,数据挖掘有不同的分类方法。(1) 按数据库类型分类 从关系数据库中发现知识;从面向对象数据库中发现知识;从多媒体数据库、空间数据库、历史数据库、Web数据库中发现知识。,(2) 按挖掘的知识类型分类 按挖掘的知识类型可分为关联规则、特征规则、分类规则、偏差规则、聚集规则、判别式规则及时序规则等。 按知识的抽象层次可分为归纳知识、原始级知识、多层次知识。一个灵活的规则挖掘系统能够在多个层次上发现知识。,(3) 按利用的技术类型分类 根据开采方法分为自发知识开采、数据驱动开采、查询驱动开采和交互式数据开采。根据开采途径分为基于归纳的开采、基于模式的开采、基于统计和数学理论的开采及集成开
23、采等。,(4) 按挖掘的深度分类 在较浅的层次上,利用现有数据库管理系统的查询/检索及报表功能,与多维分析、统计分析方法相结合,进行 OLAP,从而得出可供决策参考的统计分析数据。在深层次上,从数据库中发现前所未知的、隐含的知识。OLAP的出现早于数据挖掘,两者都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者可以起到相辅相承的作用。OLAP可以作为一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。,数据挖掘有两种功能:(1)预测/验证功能。用数据库的若干已知字段预测或验证其他未知字段值;(2)描述功能指找到描述数据的可理解模式。,数据挖掘和知
24、识发现的联系,知识发现KDD (knowledge discovery)是指识别出存在于数据库中有效的、新颖的、具有潜在效用的、最终可理解的、模式的、非平凡过程。KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘进行的预处理和结果表达等一系列的计算步骤。尽管数据挖掘是整个过程的中心,但它通常只占整个过程15%25%的工作量。 知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全过程的一个特定的关键步骤,KDD的步骤: 1 熟悉应用领域、背景知识及用户的KDD任务性质;2 数据的选择:确定与发现任务相关的数据集合;3 数据清理和预处理,包括除去错误和冗余数据、处理
25、丢失数据、更新数据和时序信息并将其准备成数据挖掘工具所需的表达式;4 数据缩减和投影,寻找依赖于发现目标的、表达数据的有用特征,通过降低维数和数据转换以缩减数据规模;降低数据复杂性;5 确定KDD目标,选择合适的算法如聚集、分类、线性回归等;,6 选择数据挖掘算法,选择适当的模型和参数; 7 执行数据挖掘过程,发现模式并表达成易理解的 形式如分类规则等; 8 评价和解释发现的模式,必要时反复执行步骤 1到7; 9 将模式提交给用户或应用到系统中。 KDD整个过程是一个以知识工作者为中心、人机交互的探索过程。,1 生物医学和DNA数据分析的数据挖掘 人类有约10万个基因。一个基因通常由成百个核苷
26、按一定次序组织而成。核苷按不同的次序和序列可以形成不同的基因,几乎是不计其数。 具有挑战性的问题是从中找出导致各种疾病的特定基因序列模式。 由于在数据挖掘中己经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具,2 针对金融数据分析的数据挖掘 (1) 为银行和金融数据构造其数据仓库:多维数据分析用于分析这些数据的一般特性。例如,人们可能希望按月,按地区,按部门,以及按其他因素,查看负债和收人的变化情况,同时希望能提供最大、最小、总和、平均和其他统计信息。数据仓库,数据立方体,多特征和发现驱动数据立方体,特征和比较分析,以及孤立点分析等,都会在金融数据分析和挖掘中
27、发挥重要作用。,(2)贷款偿还预测和客户信用政策分析: 有很多因素会对贷款偿还效能和客户信用等级计算产生不同程度的影响。 数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要因素,剔除非相关因素。例如,与贷款偿还风险相关的因素包括贷款率,贷款期限,负债率,收入比率,客户收入水平,受教育水平,居住地区,信用历史,等等。,分析客户偿还的历史信息,可以发现,偿还与收入比率可能是主导因素,而受教育水平和负债率则不是。银行于是可以据此调整贷款发放政策,以便将贷款发放给那些以前曾被拒绝,但根据关键因素分析,其基本信息显示是相对低风险的申请。 (3)对目标市场客户的分类与聚类: 分类与聚类的方法可用于
28、用户群体的识别和目标市场分析。例如,通过多维聚类分析,可以将具有相同储蓄和贷款偿还行为的客户分为一组。有效的聚类和协同过滤方法有助于识别客户组,将新客户关联到适合的客户组,以及推动目标市场。,(4) 金融犯罪的侦破: 把多个数据库的信息(如银行交易数据库、联邦或州的犯罪历史数据库等)集成起来。 然后可以采用多种数据分析工具来找出异常模式,如在某段时间内,通过某一组内发生大量现金流量,等等。这些工具可以识别出一些重要的活动关系和模式,有助于调查人员聚焦可疑线索,做进一步的处理。 有用的工具包括: 数据可视化工具(用图形方式按时间和一定人群显示交易活动); 链接分析工具(识别不同人和活动之间的联系), 分类工具(滤掉不相关的属性,对高度相关属性排级); 聚类分析工具(将不同案例分组); 孤立点分析工具(探测异常资金量的转移或其他行为); 序列模式分析工具(分析异常访问模式的特征)。,