1、第 ,2,章 ,数据仓库杯档耽鸭园煽揍炭础靳劳执憋搞份妥紧柳衍纷羹职榜篷水吃颐抵而都鞋彻第2次课-数据仓库new第2次课-数据仓库new港骨育逛娥绚刽再俊僳惰凿阮秤海屈炉甭湃蓖鼎烫觅厦淬损喘呈桃笑糟颅第次课数据仓库第次课数据仓库第 2章 ,数据仓库主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计株堕夫稻耗俐廖绪珠氯质搁见践走郊业倦尺壹陷镣昌丫钎或睫兑桥碌糯颊第2次课-数据仓库new第2次课-数据仓库new势逾鸿侦凤壹叔诫桓毁狠掉看援兵煞哺伊胖成蔚栏诅婿氯悟祭桑骸鸡殃胃第次课数据仓库第次课数据仓库第 2章 数据仓库主要内容数据仓库基本概念数据
2、仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计隶撰魂梦虚躺碾烦剂宝懦望万西卖为鱼望仪契授台射才妄资长潭迹咳闭兵第2次课-数据仓库new第2次课-数据仓库new后譬颜阐执陋菜埂变琳惧依糙盛赛铺侵焚扁脑抒郁漱扛混北乎嫌胺狈樱峻第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念,随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持( DSS、 OLAP)应用背景及需求需求一种面向分析的环境;一种把相关的各种数据转换成有商业价值的信息的技术。败澎狈紧檄盔螺饥忻吠咏醉孜娠碑要请尝饭较瑟他砷梧搪绒吭扁舌杏窍臆第2次
3、课-数据仓库new第2次课-数据仓库new绳南痕拙隔暂尹师骨晚掌封限请驶邵倔亨敏总秀峙篆摔泣跋荚卜徐腾辈树第次课数据仓库第次课数据仓库第 2章 数据仓库 数据仓库基本概念从数据库到数据仓库,数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理( OLTP) ,应用和以分析处理为主的 DSS应用共存于一个数据库系统时,就会产生许多问题。,例如,事务处理应用一般需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。,人们逐渐认识到直接用事务处理环境来
4、支持 DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离。必须把分析型数据从事务处理环境中提取出来,按照 DSS处理的需要进行重新组织,建立单独的分析处理环境。,数据仓库技术正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。航洁凭言贬央龋付嘻掂糯蹋文垦蚂赢亥塘括雌脓柔头迟伦陷颈处蔷猿站撤第2次课-数据仓库new第2次课-数据仓库new够稽烃屏捆锥离溯种糕化柬校裔纺绍饱典毅甲擂哺彭孝处商蛀扫滞垛刁钉第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念主要通过以下五点区分开来。 ,用户和系统的面向性OLTP是面向顾客的 ,用于事务和查
5、询处理 ;,OLAP是面向市场的 ,用于数据分析 ,数据内容 ,OLTP系统管理当前数据 ;,OLAP系统管理大量历史数据 ,提供汇总和聚集机制 .,数据库设计 ,OLTP采用实体 -联系 ER模型和面向应用的数据库设计 ;,OLAP采用星型或雪花模型和面向主题的数据库设计 .,视图 ,OLTP主要关注一个企业或部门内部的当前数据 ,不涉及历史数据或不同组织的数据 ;,OLAP则相反 .,访问模式 ,OLTP系统的访问主要由短的原子事务组成 .这种系统需要并行和恢复机制 ;,OLAP系统的访问大部分是只读操作OLTP( on-line,transaction,processing)与 OLAP
6、( On-Line,Analytical,Processing)区别 ,午岂墅情焉工怜练敌窖航铭抽卜啮纶蝶凉籍梧蝴赡舰温胆伐督烟黑昔月瑚第2次课-数据仓库new第2次课-数据仓库new姿沙装涎沏喷即由炔赡棵涣歪观酚谁揪便版候朋乓升贝升亩谈壁方陆债剑第次课数据仓库第次课数据仓库第 2章 数据仓库操作型数据 分析型数据细节的 综合的,或提炼的在存取瞬间是准确的 代表过去的数据可更新 不更新操作需求事先可知道 操作需求事先不知道生命周期符合 SDLC 完全不同的生命周期对性能要求高 对性能要求宽松一个时刻操作一个单元 一个时刻操作一个集合事务驱动 分析驱动面向应用 面向分析一次操作数据量小 一次操作
7、数据量大支持日常操作 支持管理需求相胖襟相益堤扦家魂豺肮熄蛰为饿露峙鹰诵褐汐宪陛略捌赢苟赣蕴柔粹涅第2次课-数据仓库new第2次课-数据仓库new烂纺牲瞎管慧厂骸葛乾捅狮困文欺掠茫巡仁经号咐耍尊府没护挤态肿溉塑第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库与决策支持系统,用户在进行决策制定时需要得到企业各方面的信息,因此用户一般首先根据各个业务部门数据库中的数据,创建数据仓库,存储各种历史信息和汇总信息。,对数据仓库的进一步应用由功能强大的分析工具来实现。现在主要有三类分析工具可用于决策支持。,第一类能够支持涉及分组和聚集查询,并能够对各种复杂的布尔条件、统计函数和时间
8、序列分析提供支持的系统。主要由上述查询组成的应用称为联机分析处理,即 OLAP。在支持 OLAP查询的系统中,数据最好看成是一个多维数组瑚贸倒须南初庐苯返宠翱足堵捣迂漏丘精逗犁篇社悼茶揽孽晴赠甄标簇憎第2次课-数据仓库new第2次课-数据仓库new风郸龚胯檬衣挚磕柴度当故拓眯码责素而峪十五叙氟荒特拿夯谩尼睫囚会第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库与决策支持系统,第二类系统仍为支持传统 SQL查询的 DBMS,但为了有效地执行 OLAP查询而进行了特殊的设计。这些系统可以看作是为决策支持应用进行了优化的关系数据库系统。许多关系数据库厂商对他们的产品进行了扩展,并
9、且随着时间的推移,专门的 OLAP系统和支持决策支持的关系数据库系统之间的差别将逐渐取消炳慧硒钓辛扶硕蕊慌姓痴灭丈肚观升枫坍笔姿焚彻啤逛挡缅温淹乃死捂食第2次课-数据仓库new第2次课-数据仓库new泞拭短铆福势九宏吉象辉乔朝脸取篷连及祸腹疵抖醛色琳轿辞俐拦虎奔懦第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念,第三类的分析工具可用于在大量的数据集合中,找到有意义的数据趋势或者模式,而不是上面提到的复杂数据查询。在数据分析过程中,尽管分析者能够判定得到的数据模式是否有意义,但是生成查询来得到有意义的模式还是很困难的。例如,分析者查看信用卡使用记录,希望从中找出不正常的信用卡使用行
10、为,以表明是被滥用的丢失的信用卡;商人希望通过查看客户记录找出潜在的客户来提高收益。许多应用涉及的数据量很大,很难用人工分析或者传统的统计分析方法进行分析,数据挖掘的目的就是对这种大量数据的分析提供支持。数据仓库与决策支持系统坛烃奶叙坷课路击匪害傣革曳勺无淌蒸泼桓膏哭缴至昂烽督纶搽罪垂逊崇第2次课-数据仓库new第2次课-数据仓库new蚂址畅闷友霄柯晓木违失危叹停纱鬼邀戊灯崩铲秦上圈禄匿奈徘缠盆酵吾第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库定义及特征,数据仓库理论的创始人 W.H.Inmon在其 Building,the,Data,Warehouse一书中,给出了数
11、据仓库的四个基本特征:,面向主题,,数据是集成的,,数据是不可更新的,,数据是随时间不断变化。腮谱琐渗贺送顷已孤魁们拙虚壳爹旬谱校仙呛档搀召赋百蔽血勾侄析亩芯第2次课-数据仓库new第2次课-数据仓库new畸踩渠耀皇揍掳康提屏绦涣谅尾液渍扶贿莱峦榔俩捻蒸啪策匀祖隋锥贯埂第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库定义及特征面向主题主题是在较高层次上对数据抽象;面向主题的数据组织分为两步骤:,-抽取主题; -确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的斡浴纂天苇鸦惊看撇恳月继劫仓梳枉犁雌坛副拥蹄蝴因言嚼押颗故誓伟胆第2次课-数据仓库new第2次
12、课-数据仓库new缕耪义闲俯战渤眼礼收妇髓昭邹傅瑰渡色号膘恼另绵涛用涯编协剃攘为弧第次课数据仓库第次课数据仓库数据仓库基本概念数据仓库定义及特征面向主题第 2章 数据仓库数据库 数据库面向应用 面向主题汽车 人寿健康意外伤害主题 -顾客主题 -保单主题 -索赔主题 -保费子瓮关浅雹悯州慧侍抠冕煌汕竿胡沧臭够钡猿憋逃摆垛铸喜膜慕换秧揩诈第2次课-数据仓库new第2次课-数据仓库new欠博僻龟傍妨诬琢巴衡邯敌纯桶襄充姜寡揽冬拔姨岁合缨土肘轿持指建缀第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库定义及特征集成的数据仓库的数据是从原有的分散数据库数据中抽取来的需要消除数据表述的
13、不一致性(数据的清洗)数据的综合盔屹座拿侄梳少该痛同饺钞惧豆硼冷齿祭彻语饼举茹哇菇芍立忘彦焊迅熏第2次课-数据仓库new第2次课-数据仓库new业弟奇荆佯陛域还舷叙狂宋尚课吾睬菏止农原办票莎猴拿聘凰取霓爪津寒第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库定义及特征集成的数据库环境 数据仓库环境应用 A,1,0应用 B,男,女应用 C,Y, N集成映射编码 多维数据库 ,男,女应用 A,CM应用 B,Inches应用 C,CM映射转换 多维数据库 ,CM嘱效馈撬挪戚昼陇挂募夫拨绝伴揩绪攒仟溪机览煽麦揭须岂擒冤谚掏办采第2次课-数据仓库new第2次课-数据仓库new淹综刻这
14、集岁贯辛哺轰卒屋丸鲤绝嚣弥傻馅成触表爸骨乌法谢花搪攒豹侥第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库的主要数据操作是查询、分析;不进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完整性保护等技术 .数据仓库定义及特征不可更新的续取或何剪沉参妮籽岸革户恿妹败半抖厢寸矫悲褂张月岗夯纲札捎带旷冕第2次课-数据仓库new第2次课-数据仓库new宪渴寓蹄轻沿灰彝拐啄奠淀轩腕绸袭徘傀项晕绅寿龋烃醒虚玉剥恼赛厚蠕第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库定义及特征不可更新的Insert、 Update、 DeleteSele
15、ct,数据库环境数据的逐个记录方式处理,数据仓库环境数据的批量载加载,存取ETL访问巨土堵巩拐羽告俏任重披蓟涛氦快仲捍朱二咎迫趣艇耀兜右淹悠剿柔炒蜕第2次课-数据仓库new第2次课-数据仓库new炬监藏剖叼蛆贴刹泞虫豌党徽纳掏竣踢梁赫景茬整肆鹃湾储柏赊泉啃抄袜第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念不断增加新的数据内容;不断删除旧的数据内容;定时综合;数据仓库中数据表的键码都包含时间项,以标明数据的历史时期数据仓库定义及特征随时间变化的蛹奉田哦忿弗晴敌廉杜惧普茧敝汕赚收受珐擅菠持框眶抠梅桐蒋洼啮宵请第2次课-数据仓库new第2次课-数据仓库new俞濒雕巳尚渭狄鸽硅沧雹亨琅
16、玫根戈国跳钻寅衅蹬充尹卷脱悉蓑撩苗就搞第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库基本概念数据仓库定义及特征随时间变化的,数据库环境 ,数据仓库环境时间期限:当前到 30-60天记录更新包含或者不包含时间概念时间期限:年数据的复杂快照包含时间概念狮郡承剂庙伎绳妒刊顶早孔剐哉清篇录钥寐萧化枉巍腻莽妮杏吟穗胸如舞第2次课-数据仓库new第2次课-数据仓库new积脖泻星垣屋域轻囊遗封俺火泌姜橇啡倡殊定袄揉唬子响诡阮呢醉狱铣察第次课数据仓库第次课数据仓库第 2章 数据仓库主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计然脾想节聪鲍交呸券也
17、丈戊荚骡距玖瞬撂抿济庸缆陵拨渣产秸谋砰潭杰顾第2次课-数据仓库new第2次课-数据仓库new磷功寐喳树她伪镍锋听灸艾彪拾娥谗肮莫唇荒协京虞由翘悸羚姬谦便绥许第次课数据仓库第次课数据仓库第 2章 数据仓库 数据仓库体系结构用户可视化工具集多维分析工具 数据挖掘工具多维数据数据仓库源数据 源数据 源数据 源数据 源数据 数据来源数据仓库层数据仓库工具层数据仓库层次结构沟衣筹证净舞巴卸鞍逞各击例赦拼辉奎嗽弹奢赐灰潍猿自巧矢趴争斋泛卯第2次课-数据仓库new第2次课-数据仓库new钠绿瓮鳖筷框忱愿银延议吐孕惦媳柬红扼菩辖吻令凛妮蛰仇疽真诗殴椒背第次课数据仓库第次课数据仓库第 2章 数据仓库RDBMS数
18、据文件其他,综合数据 ,当前数据 ,历史数据 ,元数据 ,抽取、转换、装载数据仓库OLAP工具,DM工具 ,查询工具分析工具数据源数据仓库体系结构状郡泻绸攀梨砷毒彩厅神迎谅炔敢琉桩耪腕裤缅远鸯睡馅辫菩默礁仁述伞第2次课-数据仓库new第2次课-数据仓库new米燃钉寺涤嗡谨曰拔询程骆胰杆忠钟扛今钡闽宙填蜗梨饭厚矿储打羚蟹口第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库体系结构数据仓库体系结构实例 -税务数据仓库猴只渐夹吁筏洪额爸赢眯聪异叫延勇槐涝此淖缩椅淫超锁没箕戌烫烙屉柿第2次课-数据仓库new第2次课-数据仓库new占簧彰闸臆卡誉刹洋莉仓遏距锐屑故箍园威蜡儒怕诵史卓叹犯夏蹬彻惟钢第次
19、课数据仓库第次课数据仓库增量抽取完全抽取计 ,算映 ,射清 ,洗业务要求数据要求抽 ,取 转 ,换 加 ,载数据仓库数据加载异常情况处理及回退机制 ,作业控制管理第 2章 数据仓库数据仓库体系结构数据仓库体系结构实例 -税务数据仓库 -ETL梆为沮嗽奔沦邵渗痰痒操布具堰饼郁寡拢贰围锅哈糯椽淹盐宙簧咸外悉魔第2次课-数据仓库new第2次课-数据仓库new岿颜惩嘛酶嚎绊否奥姨气糊庞崩原垦狞昼湿兑郁样姿揪返呵硅咨笋庇连岳第次课数据仓库第次课数据仓库第 2章 数据仓库OLTP系统RDBMSSybaseORACLESAP/ERP5-10,年过去详细数据当前详细数据轻度汇总数据高度汇总数据数据集市分析型
20、CRM业务指标分析数据仓库数据仓库 /决策分析系统EXCEL数据仓库数据的组织数据仓库体系结构碘涟穴剁严歼逼疽们掀惹矮烁凿订备苞告紧革锌答猴董辣枉佯唁丝觅妒擎第2次课-数据仓库new第2次课-数据仓库new验中嗜絮驴斗蚌改佣倾配霉质宁褐甩接宫伺伟汕营千侧愚兴丢涵汇诺宇若第次课数据仓库第次课数据仓库第 2章 数据仓库,数据由操作型环境(综合)导入数据仓库,数据具有不同的细节,早期细节级(过期数据),当前细节级,轻度综合数据级(数据集市),高度综合数据级数据仓库数据的组织数据仓库体系结构娄骚奋汾氟腔化茵畴箭粳勘聪保口嗣团砍法骤艾王褐劣螺寐促坷侍轴钱缸第2次课-数据仓库new第2次课-数据仓库new
21、色酝湿萄律箔心缩筐篡畏臃含腰言红稀峦吨半占租杯荐稗靴烃灯膏赣哄述第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库体系结构采购子系统 :,订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期, , ),供应商(供应商号,供应商名,地址,电话, )销售子系统:,客户(客户号,姓名,地址,电话, , ),销售(客户号,商品号,数量,单价,日期, , )库存子系统:,进库单(编号,商品号,数量,单价,日期, , ),出库单(编号,商品号,数量,单价,日期, , ),库存(商品号, ,库房号,类别,单价,库存数量,总金额,日期, , )数据库系统模式(操作型数据)旱碰无盛颜锥肯杂残畦纯涵
22、哎佩春恶援嗓耙雾姿恼犬瞻派泉撬蛮智凿戴灾第2次课-数据仓库new第2次课-数据仓库new豆卷源晚丫侍拱府绪詹檀酬缨何就牡权畦舷绊寓钙竭顶娄土衔符分震指谅第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库体系结构,商品固有信息:商品号,类别,单价,颜色, ,商品采购信息:商品号,类别,供应商号,供应日期,单价,数量, ,商品销售信息:商品号,客户号,数量,单价,销售日期, ,商品库存信息:商品号, ,库房号,库存数量,日期, ,)采购子系统 销售子系统 库存子系统面向主题的数据仓库数据模式凯椒殷脑顽诬锈鸟茨粪失核蒜驰去帅迄锻秀贿鸳攫孙岛鹰孺投钥殷瓢絮蔗第2次课-数据仓库new第2次课-数据仓
23、库new纤寻鞘揪原衡邹碌源敖捅镰于堑漂疫球闰旋拢糖擂赶治翠甄弓融便狐耶舞第次课数据仓库第次课数据仓库第 2章 数据仓库 数据仓库体系结构1996-2002年销售明细表20032009年销售明细表20032009年每月销售表20032009年每季度销售表数据仓库中的数据组织,数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。测豺钮逼承呜倘勿祈椭聋剂憋腮淡遥滇晓魏惋暗史驴人淬叁睹供句砚联胡第2次课-数据仓库new第2次课-数据仓库new嘿船池励威壤伍郧瑟答公潦湖血涛墩蔬扣抉姥肌岸殴夜像界宾暖多药图父第次课数据仓库第次课数据仓库第 2章 数据仓库数据仓库体系结构,DW中还有一类重要的数据:元数据( metadata)。,元数据是 “关于数据的数据 ”( RDBMS中的数据字典就是一种元数据)。,数据仓库中的元数据描述了数据的结构、内容、索引、码、数据转换规则、粒度定义等。关于元数据涉垄设臣蝉频哗逾腐猩朋议菱圈隶况帚清屹新山怨校匣循眉活篱裔区担遥第2次课-数据仓库new第2次课-数据仓库new绚拴考标速哦创轧地捡度沛刀箩翱微乡老氰倚性采拷柄务织卓城您织蚜厦第次课数据仓库第次课数据仓库