1、数据分析与挖掘,张冬丽 13303211180,1,2018/12/14,fishing,Data Mining,dredging,课程目标,基本目标(鱼) 学习各种数据分析与挖掘的原理的基本方法 掌握Sql Server 数据分析与挖掘工具的使用 实现挖掘模型案例 高级目标(渔) 数据分析与挖掘的思维方式 具备数据挖掘方面自学的能力,教材,商务智能与数据挖掘 Microsoft SQL Server应用,谢邦昌主编,机械工业出版社,2008 SQLSERVER2005数据挖掘与商业智能,朱德利主编,电子工业出版社 数据挖掘原理与SPSS Clementine应用宝典,元昌安主编,电子工业出版
2、社,2009 数据挖掘, Jiawei Han, Micheline Kamber,高等教育出版社, 2001,课程特点,从最基本概念出发 从最基本的SQL Server操作开始学起 在线数据分析(olap)和挖掘方法作为课程的主体,课程要求,平时成绩30%(上机实验+考勤) 期末考试70%(课程报告+考察),本领域常用词汇: 数据挖掘 Data Mining , DM 数据仓库 Data Warehouse, Data Warehousing, DW 联机事务处理 OLTP Online transaction processing 联机分析处理 OLAP Online analytical
3、 processing 知识发现 KDD Knowledge Discovery in Databases 决策支持 Decision support systems ,DSS 商务智能 Business Intelligence,BI,什么是商务智能,Business Intelligence (BI)企业利用信息科技以企业内部及外部既有的数据库数据为基础,根据所需解决的问题进行数据汇总,整合成数据仓库后,利用适当的工具进行数据处理,利用联机分析及数据挖掘等技术分析数据,将所发现的潜在特性或是建立的预测模型传递给决策者,以提供协助其进行决策,并达到企业目标。,商务智能,数据仓库用于数据的存储
4、和组织 OLAP集中于数据的分析 数据挖掘则致力于知识的自动发现 将它们结合起来就成为一种新的DSS构架,成为商务智能(Business Intelligence,BI)的3个支柱 即:DWOLAPDM支持BI的可行方案,了解示例数据库,1、adventureworks http:/ Adventureworksdb,adventureworksdw2、foodmart Foodmart SQLSERVER2005数据挖掘与商业智能朱德利,一、关于数据挖掘的经典故事和案例,1、正在影响中国管理的10大技术 2、从数字中能够得到什么? 3、一个网络流传的笑话 4、啤酒与尿布 5、网上书店关联销售
5、的案例 6、数据挖掘在企业中的应用,10,2018/12/14,1、正在影响中国管理的10大技术,11,2018/12/14,No.1 RFID NO.2 3G NO.3 IPTV(交互式网络电视) NO.4 VOIP(基于互联网的语音传输技术) No.5 数据挖掘,3、一个网络流传的笑话(转述),客服:“东东披萨店您好!请问有什么需要我为您服务?” 顾客:“你好,我想要” 客服:“先生,请把您的AIC会员卡号码告我。” 顾客:“喔!请等等,12345678。”,12,2018/12/14,(1.客户数据库) 顾客: “我家,为什么你知道我所有的电话号码?” 客服: “陈先生,因为我们有连线“
6、AIC CRM 系统”。”,13,客服: “陈先生您好,您是住在泉州街一号二楼,您家的电话是23939889,您的公司电话是23113731, 您的移动电话是939956956。请问您现在是用哪一个电话呢? ”,2018/12/14,Add-in-Cards 亲密合作伙伴,Customer Relationship Management 客户关系管理,顾客:“我想要一个海鲜披萨”客服:“陈先生, 海鲜披萨不适合您。”顾客:“为什么?” 客服:“根据您的医疗纪录, 您有高血压和胆固醇偏高。”(2.医疗数据库),14,2018/12/14,Why?,顾客:“那你们有什么可以推荐的?”客服:“您可以
7、试试我们的低脂健康披萨。”顾客:“你怎么知道我会喜欢吃这种的?”客服:“喔! 您上星期一在中央图书馆借了一本低脂健康食谱。”(3.图书借阅数据库),15,2018/12/14,顾客:“哎呀!好,我要一个家庭号特大披萨,要多少钱?” 客服:“嗯,这个足够您一家十口吃,六百九十九元。” 顾客:“可以刷卡吗?” 客服:“陈先生,对不起,请您付现,因为您的信用卡已经刷爆了, 您现在还欠银行十万四千八百零七元,而且还不包括房贷利息。” (4.金融数据库-信用卡),16,2018/12/14,顾客:“喔!那我先去附近的提款机领钱。”客服:“陈先生,根据您的记录, 您已经超过今日提款机提款限额。”(5.金融
8、数据库-现金卡),17,2018/12/14,顾客:“算了!你们直接把披萨送来吧,我这里有现金。你们多久会送到?” 客服:“大约三十分钟, 如果您不想等,可以自己骑车来。” 顾客:“什么?!” 客服:“根据“AIC CRM系统”记录,您有一辆摩托车, 车号是GY-7878。” (1.客户数据库),18,2018/12/14,!,!,!,顾客: 客服:“陈先生,请您说话小心一点。您在2000年四月一日用脏话侮辱警察,被判了十日拘役。”顾客:“”(6.刑事刑案数据库),19,2018/12/14,“,$%&$,%&!”,客服:“请问还需要什么吗?” 顾客:“没有了,是不是有送三罐可乐?” 客服:“
9、是的!不过根据“AIC CRM系统”您有糖尿病”,20,2018/12/14,21,CRM Road MAP,2018/12/14,4、啤酒与尿布,在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。 但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。 原因何在?,22,2018/12/14,原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。 是什么让沃尔玛发现了尿布和啤酒之间的关系呢? 正是商家通过对超市一年多原始交易数字进行详细的分析,通过数据挖掘中的关联规则发现了这样的组合。,2
10、3,2018/12/14,5、网上书店关联销售的案例,现在网上书店为了能够吸引更多读者购买图书,常常会运用一种叫做关联销售分析的方法。 这种方法是给客户提供其他的相关书籍,也就是在客户购买了一种书籍之后,推荐给客户应该感兴趣的其他相关书籍。 例如:购买了月光宝盒(2VCD)的顾客,对什么样的VCD还比较感兴趣,购买的比较多呢?。,24,2018/12/14,解决上述问题的步骤: 首先,确定数据源,也就是销售记录。 这里要用到两张表,一张表是该书店的会员,用会员ID号来代替;另一张表是会员买了什么书。然后,应用Data Mining技术,建立数据挖掘模型。,25,2018/12/14,对上述问题
11、进行挖掘的结果:,26,支持度sup(.):表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比 。,置信度confidence(.):是指在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。,结果:购买月光宝盒(2VCD)之后,又购买大圣娶亲(2VCD)的次数是1317。,2018/12/14,大数据应用案例,1. 梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。2. Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后
12、通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。3. 沃尔玛的搜索。这家零售业寡头为其网站W自行设计了最新的搜索引擎Polaris,利用语义数据进行文本分析、机器学习和同义词挖掘等。根据沃尔玛的说法,语义搜索技术的运用使得在线购物的完成率提升了10%到15%。“对沃尔玛来说,这就意味着数十亿美元的金额。”Laney说。4. 快餐业的视频分析。该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。5. Morton牛排店的品
13、牌认知。当一位顾客开玩笑地通过推特向这家位于芝加哥的牛排连锁店订餐送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton就开始了自己的社交秀。首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。,6. PredPol Inc.。PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。7. Tesco PLC(特易购)和运
14、营效率。这家超市连锁在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。8. American Express(美国运通,AmEx)和商业智能。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。Laney认为。于是,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%,数据挖掘所能解决的典型商业问题包括: 银行:反欺诈行为、关联销售、市场竞争分析。客户分类、客户价值分析与预测、客户偏好分析、客户信用分析以及欺诈检测等。
15、 电信:流失预警、客户分群、关联销售。 网上销售点:购物车交叉销售、网上商品布局。,2018/12/14,29,6、数据挖掘在企业中的应用,DM在信用卡欺诈交易中的应用,应用之一是通过评价交易数目、交易金额、账户信息如姓名变化和地址变迁、换卡申请等非金融信息的组合来实现。这些因素结合起来,描述出持卡人最近交易的大概轮廓,从而评估出是否与持卡人的交易习惯相符。一旦发现交易异常的明显痕迹,发卡行需要联系持卡人,以确定其信用卡账户最近是否正常,是否被以任何方式遭受损害。,2018/12/14,30,例如,如果一个持卡人日常生活里,每月交易笔数在36笔,这就是其交易模式之一。如果有一天发现当日其信用卡
16、账户有15笔交易,例外报告将要求发卡行联系持卡人进行确认。,DM在大型零售企业中的应用,1、优化商品组合布局,正确安排商品进货与库存 从众多的商品中发现创造价值最大的商品。然后,据此调整商品的结构,安排商品的库存和定货。 商品布局管理即商品摆放位置对销售起着至关重要的作用。,2018/12/14,31,考虑购买者在商店里所穿行的路线、购买时间和地点、货架的使用效率、畅销商品的类别、不同商品一起购买的概率,进行挖掘。,英国safeway(北美最大的食品和药品零售商之一 )公司,研究发现某一种乳酪产品虽然销售额排名第209,可是消费额最高的客户中有25都常常买这种乳酪,这些客户可是Safeway最
17、不想得罪的客户。如果使用传统的分析方法的话,这种产品很快就会不卖了,可是事实上这种产品是相当重要的。,Safeway也发现在28种品牌的橘子汁中,有8中特别受到欢迎。因此,该公司重新安排货架的摆设,使橘子汁的销量能够增加到最大,例如,一个超市营销的例子,经由记录客户的消费记录与采购路线,超级市场的厨房用品是按照女性的视线高度来摆放的。 根据研究得出:美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130-135公分之间。在商业上,有很多特征是很难理解的,但若了解到这些信息就会增加企业的竞争能力。,2018/12/1
18、4,32,2、利用数据挖掘技术帮助企业准确制定营销策略,主要表现在: (1)通过对市场同类产品和销售情况、顾客情况的资料收集和分类分析,明确细分市场,确定本企业差别化的产品和服务定位、目标顾客和市场营销策略。(业绩分析) (2)正确安排商品进货与库存,降低库存成本。即对各个商品、各色货物进行增减,确保正确的库存;协助企业确定最佳经济批量、最佳定货时机,从而节约进货和库存管理费用;,2018/12/14,33,(3)将顾客按照一定的标准进行分类,通过对企业销售数据的序列分析发现顾客基于时间的购买模式,预测顾客需求,及时调整产品的结构和内容,提高不同顾客群的满意度,最大限度的留住顾客。 (4)通过
19、建立顾客会员制度,记录同一顾客在不同时期购买的商品序列,通过统计分析和序列模式挖掘顾客购买趋势或忠诚度的变化。,2018/12/14,34,以顾客为导向,例如,Safeway在了解客户每次采购时会购买哪些产品以后,就可以利用数据挖掘中的监测功能,监测出长期的经常购买行为。再将这些资料与主数据库的人口统计资料结合在一起,Safeway的营销部门就可以根据每个家庭的特性,也就是哪些季节会购买哪些产品的趋势,发出邮件。,2018/12/14,35,例如,拥有汽车的新婚夫妻很可能购买儿童专用汽车椅,这个现象很容易被理解,并不需要应用到数据挖掘中。 但如考虑到另一个问题,这些夫妻会购买何种颜色的儿童专用
20、汽车椅?这时可以运用数据挖掘技术以便在新婚夫妻购买汽车的时候销售给他们合适的儿童专用汽车椅。,2018/12/14,36,(7)交叉销售,商业智能的结构描述,商业智能的实现包含了“数据信息知识行动智慧”这一过程所运用的技术和方法。在国外,有人曾经把BI作为一种数据的提纯工厂。,BI过程以来自业务系统的数据为基础,经过数据仓库技术的处理,整合数据并将其转化为有序的信息;这些信息经过联机分析处理(OLAP)技术的分析后,可以表达出数据内部的各种关联,这是对商业管理活动有很大帮助的知识;经营活动中很多时候还要进一步明确数据中隐藏的规则,这要靠数据挖掘技术的帮助,最后要采取行动时,可以用模型库和方法库
21、等决策支持的相关技术来辅助决策;,把商业智能系统工作的这一过程进行技术上的抽象,可以把商业智能的体系结构分为源数据层、数据转换层、数据仓库(数据集市)层、OLAP及数据挖掘层和用户展现层。这几层通过密切的协作完成商业智能的功能,它们的相互依赖关系如图1-8所示 实现商业智能应用有4个十分关键的环节,包括数据源、ETL过程、数据仓库及其应用和BI前端展现,ETL过程即抽取(Extraction)、转换(Transformation)和装载(Load)。ETL过程负责将业务系统中各种关系型数据、外部数据、遗留数据和其他相关数据经过清洗、转化和整理后放进中心数据仓库,数据仓库是商业智能系统的基础,是
22、面向主题的、集成的、稳定的和随时间不断变化的数据集合。数据仓库的应用包括联机在线分析处理(OLAP)和数据挖掘(DM)。通过对数据仓库中多维数据的钻取、切片及旋转等分析动作,可以完成决策支持需要的查询及报表。通过数据挖掘,可以发现隐藏在数据中的潜在规则。,前端展现可以提供各种能帮助人们快速理解数据内涵的可视化手段。它是数据仓库的门面,包括各种报表工具、查询工具和数据分析工具以表格或图形化的手段对数据的展现,数据挖掘和商业智能工具,三大服务一个工具实现BI的体系图 (SQLSERVER2005BI),第1部分 数据仓库、OLAP与数据挖掘,1.1 从数据库到数据仓库 1.2 从OLTP到OLAP
23、 1.3 数据仓库 1.4 数据集市 1.5 数据挖掘,1.1 从数据库到数据仓库,(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利 用数据支持决策,1.数据库用于事务处理,数据库作为数据资源用于管理业务中的事务处理。它已经成为了成熟的信息基础设施。数据库中存放的数据基本上是保存当前数据,随着业务的变化随时再更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。,2.数据仓库用于决策分析,数据库用于事务处理,数据仓库用于决策分析。数据库保持事务处理的当前状态,数据仓库既保存
24、过去的数据又保存当前的数据。数据仓库的数据是大量数据库的集成。对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大。,3.数据库与数据仓库对比,1.2 从OLTP到OLAP,1.联机事务处理(OLTP)2.联机分析处理(OLAP)3.OLTP与OLAP的对比,1.联机事务处理(OLTP),联机事务处理(On Line Transaction Processing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP应用要求多个查询并行,以便将每个查询分布到一个处理器上。,OLTP的特点在于事务处理量大
25、,但事务处理内容比较简单且重复率高。OLTP处理的数据是高度结构化的,涉及的事务比较简单,数据访问路径是已知的,至少是固定的。OLTP面对的是事务处理操作人员和低层管理人员。,2.联机分析处理(OLAP),决策分析需要对多个关系数据库共同进行大量的综合计算才能得到结果。E.F.Codd在1993年提出了多维数据库和多维分析的概念,即联机分析处理(On Line Analytical Processing,OLAP)概念。关系数据库是二维数据(平面),多维数据库是空间立体数据。OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。,3.OLTP与OLAP的对比,
26、1.3.1 数据仓库的定义与特点,1.数据仓库定义(1)W.H.Inmon在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,1.3 数据仓库,(2)SAS软件研究所观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,2. 数据仓库特点,(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是
27、否继续给予贷款。,(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,(3)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,(5)数据仓库的数据量很大大型DW是一个TB(1
28、000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)(6)数据仓库软、硬件要求较高需要一个巨大的硬件平台需要一个并行的数据库系统,1.3.2 数据仓库结构,数据仓库存储采用多维数据模型。,1.3.3 数据仓库的数据模型,果汁,可乐,牛奶,商品维,奶油,浴巾,香皂,北京,上海,长沙,1 2 3 4 5 6 7,城市维,日期维,维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。 企业常常关心产品销售数据随时间的变化情况,这是从时间的角度来观察产品的销售,因此时
29、间就是一个维(时间维)。 例如,银行会给不同经济性质的企业贷款,比如国有、集体等,若通过企业性质的角度来分析贷款数据,那么经济性质也就成为了一个维度。每一个销售事实由一个特定的商店、一个特定的时间、一个特定的商品,销售价格,数量,成本等组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。关系数据库在字段上做文章,数据仓库在维上做文章,在商品销售分析DW模型中,商品的销售数量、金额、企业利润等是分析数据(度量);销售的时间、地点等使用户感兴趣的描述数据(维);销售产品的详细情况、购买商品的客户详细情况等是细节数据。,大多数的数据仓库都采用“星型模
30、型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。例如:多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。星型模型数据如下图:,1. 星型模型,事实表 主要包含了描述特定商业事件的数据,即某些特定商业事件的度量值。 一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中, 维度表主要包含了存储在事实表中数据的特征数据。 每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要求事实表中的外键不能为空,这与一般数据库中外
31、键允许为空是不同的。 这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度关键字,以便连接到中心的事实表,进行查询。,星形模型虽然是一个关系模型,但是它不是一个规范化的模型。在星形模式中,维度表被故意地非规范化了,这是星形模式与OLTP系统中关系模式的基本区别。 使用星形模式主要有两方面的原因: 一是可以提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高,同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表进行连接时其速度较快,便于用户理解; 二是
32、对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。,一个时间维表,星型模型数据存储情况示意图,AdventureWorksDW数据仓库中部分表构成的星形架构,2.雪花模型某个维度表不与事实表直接关联,而是与另一个维表关联。 可以进一步细化查看数据的粒度。 维度表和与其相关联的其他维度表也是靠外码关联的。 也以事实数据表为核心。,foodmart销售数据仓库雪花形结构设计图,AdventureWorksDW数据仓库中部分表构成的雪花形架构,3. 星网模型(星座模式 ),星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事
33、实表。 在AdventureWorksDW数据仓库中有多个事实,为了便于显示,取最重要的2个事实表“FactInternetSales”和“FactResellerSales”作为星座模式的例子。由于对网络销售和批发商销售的分析有很多观察视角都是相同的,因而这2个事实表共享的维度表较多,比如促销手段、时间和产品等。在数据库关系图中把它们的关系表现出来后,,数据仓库的事实星座模式示例,地区键 ,事务键 ,用户键 ,时间键 ,状态键 ,时间键 用户键 事务键 地区键 电话费用,时间键 用户键 状态键 电话余额,电话公司星网模型实例,数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。,1
34、.3.4 数据仓库系统结构,1、仓库管理,(1)数据建模数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模型 在于: 数据仓库只为决策分析用,不包含事务处理的数据。 数据仓库增加了时间属性数据。 数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻 辑数据模型。,(2)数据抽取、转换、装载,数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。,(1)查询工具数据仓库的查询不是指对记录级数据
35、的查询,而是指对分析要求的查询。,2、分析工具,(2)多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。,(3)数据挖掘工具从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。OLAP的对象是数据仓库或数据集市,数据挖掘的对象可以是数据仓库,也可以是关系数据库等对象。,1.数据集市的产生 数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。 提供更紧密集成的数据集市就应运产生。 目前,全世界对
36、数据仓库总投资的一半以上均集中在数据集市上。,1.4 数据集市,数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。 Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。,2.数据集市概念,3.数据集市与数据仓库差别,数据集市是在构建数据仓库的时候经常用到的一个词汇。如果说数据仓库是企业范围的,收集的是关于整个组织的主题,如顾客、商品、销售、资产和人员等方面的信息,那么数据集市则是包含企业范围数据的一个子集,例如只包含销售主题的信息,这样数据集市只对特定的用户是有用的,其范围限于选定的主题。,数据集市面向企业中的某个部门(或某个主题)是从数据仓库中划分出来的,这种划分可以是逻辑上的,也可以是物理上的。,数据仓库由于是企业范围的,能对多个相关的主题建模,所以在设计其数据构成时一般采用星系模式,AdventureWorksDW数据仓库就是这种情况。而数据集市是部门级的,具有选定的主题,可以采用星形或雪花模式。,独立数据集市(Independent Data Mart) 从属数据集市(Dependent Data Mart),106,2018/12/14,