1、第6章 数据库和数据仓库技术,6.1 企业数据处理方式6.2 文件组织6.3 数据库系统6.4 数据仓库和商业智能,6.1 企业数据处理方式,以联机事务处理形式处理信息以联机分析处理形式处理信息,并利用信息进行决策在信息应用过程中管理信息,图6-1联机事务处理与联机分析处理,6.2文件组织,6.2.1 文件数据库的基础,6.2.2 数据的物理组织和逻辑组织,图6-2 信息的物理组织与逻辑组织,图6-4 逻辑数据元素之间的关系,记录1,记录4,记录3,记录2,记录2,图6-5 磁盘顺序文件,1顺序文件组织,2 索引文件,(b)非索引顺序文件索引,(a) 索引顺序文件索引,3 链表文件,4 倒排文
2、件,6.3数据库系统,6.3.1 数据库处理,信息需求与文件、程序的关系,图6-6 银行文件处理系统,图6-7 银行数据库处理系统,图6-8 DBMS的主要功能,6.3.2 数据库管理信息系统,图6-9 数据模型,6.3.3 数据库模型与数据库组织结构,图6-10 数据库的三级体系结构,图6-11 三个不同的世界,6.3.4 数据库设计,信息的转换,表6-7 三个不同世界术语对照表,6.3.4 数据库设计,数据库设计步骤,对现实世界进行需求分析了解组织机构情况,为分析信息流做准备;了解各部门业务情况,调查各部门输入和使用的数据,及处理数据的方式与算法;确定数据库的信息组成及计算机系统应实现的功
3、能。建立信息世界中E-R(概念)模型建立分E-R图;综合分E-R图,产生总E-R图。从E-R图导出计算机世界的关系数据模型E-R图中每个实体,都相应地转换为一个关系将联系转换成一个关系,数据库设计案例某学院“教学管理”数据库模型,设计“系和教师关系”的分E-R图设计“学生和课程关系”的分E-R图设计“教师与课程关系”的分E-R图将上述三个分综合,建立学院教学管理总E-R图将学院“教学管理E-R图”所描述的信息(概念)世界中的概念模型转化为计算机上由关系型DBMS支持的关系数据模型。,设计“系和教师关系”的分E-R图,该学院下设四个系:管理工程系、会计系、市场营销系和信息管理系。每个系有一个系主
4、任主管该系工作。将“系”设为一个实体,该实体具有以下属性:系代号、系名称、系主任姓名、办公地点、电话。其中系代号是主关键字,该学院聘请了一定数量的专职教师。将“教师”设为一个实体,该实体具有以下属性:教师编号、教师姓名、专业特长。其中教师编号是主关键字。,学院聘请教师后,分配到各系。一个系有多个教师;一个教师只能属于一个系。“教师”实体与“系”实体之间发生一对多(1:M)的“分配”联系。,教学管理总E-R图,图6-13“教学管理”E-R图,6.3.5 数据库技术的发展趋势,数据管理方式:集中式 分布式数据模型:关系数据库 多媒体数据库、面向对象数据库,(a) (b) 图6-14 分布式数据库的
5、结构形式,6.4 数据仓库和商业智能,数据仓库之父W.H.Inmon :“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、非易失的(Non-Volatile)、随时间变化的(Time Variant)的数据集合,用于支持管理决策”。,图6-15数据仓库源于业务数据库,6.4.1 数据仓库,6.4.2 联机分析处理,联机分析处理(On-Line Analytical Processing,OLAP):主要是对大量多维数据的动态综合、分析和归纳。OLAP中的一个主要操作是“多维分析”,即通过对信息的多种可能的观察形式进行快速、稳定、一致和交互性的存取,
6、允许管理决策人员对数据进行深入分析。,图6-16 多维视图示例,切片和切块 (Slice and Dice)钻取(Drill)旋转(Rotate)/转轴(Pivot),6.4.3 数据挖掘,数据挖掘(Data Mining)是从大量数据中自动发现隐藏的有用知识的过程,是从大量数据中挖掘“宝藏”的过程。分类(Classification)聚类(Clustering)关联规则发现(Association Rule Discovery)时序模式发现(Sequential Pattern Discovery),6.4.4 商业智能,商业智能(Business Intelligence)是指通过对数据的
7、收集、管理、分析以及转化,使数据成为可用的信息,并在企业中共享传递,从而帮助企业获得必要的洞察力和理解力,更好地辅助决策和指导行动。,补充1:云计算,云计算是通过网络提供可伸缩的廉价的分布式计算能力。-著云台团队云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。-美国国家标准与技术研究院,服务形式,IaaS (Infrastructure-as-a- Service) 通过Internet可以获得完善的计算机基础设施
8、服务。PaaS (Platform-as-a- Service) 将软件研发的平台作为一种服务,以SaaS的模式提交给用户。SaaS:软件即服务SaaS(Software-as-a- Service) 向提供商租用基于Web的软件,来管理企业经营活动。,类型,公有云私有云混合云,应用,云物联云安全云存储云游戏,问题,数据隐私问题数据安全性用户的使用习惯网络传输问题缺乏统一的技术标准,大数据与云计算,从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数
9、据库、云存储和虚拟化技术。,大数据,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。-Gartner大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。,特点,Volume(大量)从TB级别,跃升到PB级别Velocity(高速)1秒定律、Apache Hadoop 群集、SQL Server、Excel或Office 365可视化展示Variety(多样)网络日志、视频、图片
10、、地理位置信息Value(价值)价值密度低,商业价值高,架构,产品形态,运行在平台级机构之上,通过对持续性海量增加的多结构类型数据,进行快速计算产生策略,结合使用者的经验认知产生价值,形成商业闭环。各种吐槽、舆论、谣言。微博热议:马航事件后,你还会去马来西亚旅游吗?,用大数据教你如何快速写出汪峰风格的歌?,数据源:9张专辑,117首歌曲,有没有汪老师的感觉?,圆周率3.1415926,对应的词语就是:坚强,路,飞,自由,雨,埋,迷惘。稍微链接和润色一下: 坚强的孩子, 依然前行在路上, 张开翅膀飞向自由, 让雨水埋葬他的迷惘。,有没有汪老师的感觉?,比如某人的生日19820307:自由,桥,再
11、见,迷惘,生命,死,孤独,鸟 润色一下: 站在通向自由的桥上, 再见了,迷惘的生命, 犹如死亡般的孤独, 将不再桎梏这只小鸟。,政协委员陈建国建言:借势大数据 建构社会信用体系,国务院总理李克强在政府工作报告中指出,要加快社会信用体系建设,推进政府信息共享,推动建立自然人、法人统一代码,对违背市场竞争原则和侵害消费者权益的企业建立黑名单制度,让失信者寸步难行,让守信者一路畅通。构建社会信用体系,核心在于数据。当前制约社会信用体系构建的核心问题在于信息和数据的割裂。大量“信息孤岛”存在,有些部门不愿公开数据,导致数据封闭、“沉睡”。,推动与工商、税务、质检、食品药品、海关等机构的信用信息系统的互
12、联互通,着力解决好困扰社会信息系统建设的“信息孤岛”问题;研究建立跨部门的政府信用数据专业管理机构,利用信息化和大数据技术对数据进行搜集、整理、分析,并可借助市场化手段来鼓励类似机构的发展。同时,尽可能向社会征信机构开放政府征信系统,将符合条件的征信机构也接入征信系统,充分利用整个社会的资源来构建整个信用体系。,典型应用,车联网(智慧交通、绿色出行、公车管理)智能家居(家电联网、远程升级与控制)犯罪预测视频分析(根据排队长短调整策略,如果快餐、车辆、商场)网络营销(精准投放、各类兴趣人群特征提炼、用户行为数据、底层数据:用户年龄、性别、地域数据)医疗行业智能电表婚姻状况分析(3000个美国家庭、700对新婚夫妇的长达40年的婚姻及家庭关系研究),67%的初婚夫妇会在结婚后40年内离婚,其中有一半的离婚发生在结婚后的头7年。二婚的离婚率比初婚的离婚率高10%。婚姻生活中69%的冲突都是永久性的。引发棘手婚姻问题的人80%以上为妻子,而她们的丈夫却试图回避这些问题。67%的夫妻在首次为人父母时都有婚姻满意度急转直下的经历。但是,有33%的夫妻没有这种经历,他们中有一半的夫妻婚姻状况得到了改善。,