1、1,主要内容 7.1 企业数据处理方式 7.2 文件组织 7.3 数据库系统 7.4 数据仓库和商业智能,第7章 数据资源管理技术,2,7.1 企业数据处理,一、数据资源管理是企业资源管理的重要方面 企业的重要资源 劳动力、原材料、设备、资金、数据 数据资源的管理 信息的存取 用更好的方式组织数据:采用数据库、数据仓库技术 信息的处理 用更恰当的信息处理工具:数据分析和数据挖掘工具,3,7.1 续,二、现代企业处理信息的方式 联机事务处理形式(OLTP)联机收集和处理信息,并加以利用运用业务数据库和数据库管理系统以事物处理为主 联机分析处理形式(OLAP)联机收集和分析信息,以便进行决策运用数
2、据仓库以决策处理为主,4,7.1 续,三、企业在管理信息时应考虑的问题 信息的组织形式 字段记录文件数据库数据仓库 信息的使用权限 浏览、修改 信息的更新与维护 备份、存储、更新等,5,7.2 文件组织,7.2.1 文件的管理 大量的企业数据不可能存放在主存中 数据量较大,主存有限 某一时刻,企业只使用其中的一部分数据 企业的数据一般以文件形式组织起来 存放在光盘、磁盘等外存储器上,6,7.2 文件组织,7.2.2 数据组织的层次 数据项(字段) 组成数据系统的有意义的最小基本单位 它的作用是描述一个数据处理对象的某些属性 记录 与某一对象有关的所有数据项组成一条记录 标识记录的数据项称为关键
3、项,7,7.2 文件组织,文件 相关(同类)记录的集合称为文件,数据项,记录,(主键),8,7.2 续,数据库 按一定方式组织起来的相关的文件集合形成数据库 数据仓库 是从多个数据库中抽取信息组合而成 是为企业管理者提供决策信息 支持企业管理者运用数据挖掘工具以联机分析处理方式进行决策 是数据逻辑视图的最新发展和最高体现,9,7.2 续,数据组织层次示例,10,7.2 续,7.2.3 文件组织形式 建立数据记录的物理顺序和逻辑顺序之间的对立关系,逻辑 存储方式,物理 存储方式,顺序文件 索引文件 链表文件 倒排文件,顺序映射关系,11,7.2 续,(1)顺序文件 文件中数据记录的物理顺序与逻辑
4、顺序一致 文件记录按关键字递增(或递减)次序排序,文件记录,物理设备,关键字值,相对磁道,12,7.2 续,(2)索引文件 具有索引表的文件称为索引文件 由索引和主文件两部分组成,主文件,索引表,关键字学号与学生记录地址的对应表,13,入口,7.2 续,(3)链表文件 在文件的记录中增加一个指针项,指向下一个记录的地址 通过该指针项将具有某一属性的数据记录链接在一起,记录1,记录2,记录3,记录4,14,7.3 数据库系统,数据库系统(DataBase System,DBS) DBS指在计算机中引入了数据库后的系统 一般包括以下几个方面: 数据库(DataBase,DB) 数据库管理系统(Da
5、taBase Management System,DBMS) 数据库管理员(DataBase Administrator,DBA) 应用系统 用户,15,7.3.1 数据库处理,数据库 数据库:存放数据的仓库 特点 存储在计算机内 合理组织 可共享 冗余小 数据独立性和扩展性好,16,7.3.1 续,数据管理技术的发展 1、文件系统阶段 文件是为某一特定应用程序服务的,数据和程序之间缺乏独立性,应用程序1,数据文件1,应用程序2,应用程序3,数据文件2,数据文件3,用户,用户,用户,17,7.3.1 续,银行文件处理系统,客户财务 报表,贷款程序,帐户核对 处理,存款处理,贷款处理,贷款分析
6、报告,客户票据,存款文 件修改,文件修 改核对,帐户核 对程序,贷款 文件修改,存款 程序,客户交易,客户交易,18,7.3.1 续,存在问题 数据共享性差 数据冗余度大 数据独立性差 数据不一致性,19,7.3.1 续,2、数据库系统阶段 出现了管理数据的专门软件 - 数据库管理系统,应用程序1,应用程序2,应用程序3,DBMS,数据库,中央 数据库,用户,用户,用户,20,7.3.1 续,银行数据库处理系统,客 户 交 易 处 理,数 据 库 管 理 系 统,核对帐 户程序,存款帐 目程序,分期贷 款程序,客户数据库,查 询,21,7.3.1 续,优点 数据结构化:完善的数据字典和数据模型
7、 数据独立性高 数据的共享性高、冗余度低,易扩充 数据由DBMS统一管理和控制 数据的完整性检查 数据的安全性保护 数据库的恢复功能 并发操作的控制,22,7.3.1 续,文件系统的缺陷数据的独立性:程序依赖于专门为它所设计的文件结构数据冗余性:重复的数据的存储数据的一致性:数据的重复存放导致了数据的不一致性,数据库管理系统(DBMS)以规范一致的方式存储数据以规范一致的方式将数据组织成记录以规范一致的方式存取记录,DBMS,应用程序,23,7.3.2 数据库管理系统,数据库管理系统(DBMS) DBMS是位于用户应用程序与操作系统之间的一层数据管理软件 负责数据库的生成、维护和使用,24,7
8、.3.2 续,DBMS的功能 数据库的定义 对数据库的结构进行描述 对数据库的完整性进行定义 对数据库的安全性进行定义 用户口令、用户级别、用户权限等 存取路径(如索引)定义 这些信息存储在一个专用的数据库(数据字典)中,25,7.3.2 续,数据定义功能 DBMS提供数据定义语言(Data Definiion Language,DDL) 用户通过DDL对数据库中的数据对象进行定义 数据操纵功能 DBMS提供数据操纵语言(Data Manipulation Language,DML) 用户通过DML对数据库中的数据进行基本操作 查询、插入、删除、修改,26,7.3.2 续,数据库查询 用户使用
9、DBMS的查询语言询问数据库中的数据 结构化查询语言(Structured Query Language,SQL)是最常用的查询语言 SQL查询的基本格式 SelectFromWhere,27,7.3.2 续,数据库运行管理 数据库的完整性检查、安全性检查、数据恢复 并发控制、存取控制、死锁检测 应用与开发 采用DML,让DBMS完成数据处理活动,而不用高级语言编程实现 利用DBMS软件包提供的内部程序设计语言开发应用程序,28,7.3.2 续,数据字典 数据字典是数据库管理的重要工具 数据字典是数据库的一个说明(目录) 说明数据库的结构、数据元素的特征(类型、名称、内容)、相互关系、数据库的
10、维护和安全等 用户可以通过数据字典查询数据库的概况及其变动情况 数据字典由DBA控制、管理和维护,29,7.3.3 数据库模型与组织结构,一、数据库模型 模型的功能 使数据以记录的形式组织在一起,去除冗余 反映出各种业务信息的内在联系 模型的类型: 层次模型 网状模型 关系模型 面向对象模型,30,7.3.3 数据库模型与组织结构,1、层次模型 层次模型满足 有且只有一个结点没有父结点 其它结点有且只有一个父结点 用树形结构来表示各实体以及实体之间的联系 如行政机构、家族关系等 层次模型的特点: 层次模型比较简单,只能处理一对多的实体联系 对插入和删除操作限制较多,查询子结点必须通过父结点,3
11、1,7.3.3 数据库模型与组织结构,2、网状模型 网状模型满足 允许多个结点没有父结点 允许结点有多个个父结点 层次模型是网状模型的特例 网状模型的特点: 容易表示多对多的关系,与现实世界比较接近 性能良好、存取效率高 结构比较复杂,不利于用户掌握和使用,32,层次模型和网络模型,(a)层次模型,33,7.3.3 数据库模型与组织结构,3、关系模型 是目前最重要的一种数据模型 用人们最熟悉的表格形式描述数据之间的联系 关系模型的特点: 建立在严格的数学概念基础之上 实体之间的联系、检索结果都用关系(表)来表示 存取路径对用户透明 查询效率较低,34,关系模型,35,7.3.3 数据库模型与组
12、织结构,二、数据库模式 外模式(Sub-Schema) 用户的数据视图 是数据的局部逻辑结构,模式的子集 模式(Schema) 所有用户的公共数据视图 是数据库中全体数据的全局逻辑结构和特性的描述 内模式(Storage Schema) 又称存储模式 是数据的物理结构及存储方式,36,数据库,内模式,模 式,外模式2,外模式3,外模式1,应用A,应用B,应用C,应用D,外模式/模式映象,模式/内模式映象,数据库三级组织结构,37,数据库的二种映射,外模式 / 模式映象 定义某一个外模式和模式之间的对应关系,映象定义通常包含在各外模式中 当模式改变时,修改外模式/模式映象,使外模式保持不变,从而
13、应用程序可以保持不变,称为数据的逻辑独立性 模式 / 内模式映象 定义数据逻辑结构与存储结构之间的对应关系 存储结构改变时,修改模式/内模式映象,使模式保持不变,从而应用程序可以保持不变,称为数据的物理独立性,38,39,第7章 数据资源管理技术,数据库模型 模型的功能 使数据以记录的形式组织在一起,去除冗余 反映出各种业务信息的内在联系 模型的类型 层次模型 网状模型 关系模型,40,层次模型和网络模型,(a)层次模型,41,关系模型,42,7.3.4 数据库设计,一、信息的转换,客观 事物类: 事物 相关性质集合,实体 实体集合 及 实体 联系 属性,数 文件 据 记录 库 数据项,存储二
14、进制数据集合 结构,计算机世界,DBMS,数据世界,DBMS的数据模型,信息世界,认识选择描述,现实世界,人,加工转换,加工转换,43,7.3.4 数据库设计,二、数据库设计步骤(1)数据需求分析(系统分析) (2)概念模型设计(用E-R图,Entity-Relation图)(3)逻辑结构设计将概念模型(E-R模型)转换为与选用的DBMS所支持的逻辑数据模型(4)物理设计数据库在物理设备上存贮的设计,44,7.3.4 数据库设计,(1)数据需求分析(系统分析) 了解组织机构情况 调查各部门业务情况 确定数据库的组成及系统功能 调查的重点是“数据”和“处理”,45,7.3.4 数据库设计,(2)
15、概念模型设计(E-R图) 通过对现实世界的需求分析,应用E-R图建立信息世界中的实体、属性和实体间联系的概念模型 建立概念模型分两步: 划分和确定实体 划分和确定关系 确定属性 画出E-R图,46,7.3.4 数据库设计,实体(Entity) 是一个有着一系列显著属性的对象 实体可以是具体的 物体、人物等 实体也可以抽象的 事、概念、事物之间的联系,47,7.3.4 数据库设计,属性(Attribute) 实体的特性,它描述了实体的一个部分 一个实体可由若干个属性来刻画如学生(学号,姓名,性别,) 主关键字(Key) 可以唯一标识实体的属性如:学号为学生实体的主关键字,48,7.3.4 数据库
16、设计,实体联系图(E-R图) 实体 用矩形表示 属性 用椭圆表示 联系 用菱形表示实体之间的联系 用直线表示相连接的实体 一对一联系 1:1 一对多联系 1:n 多对多联系 m:n,实体名称,属性,联系,m:n,49,7.3.4 数据库设计,实体间的不同联系,50,E-R图实例1:学生选修课程,学生,课程,选修,学号,姓名,系别,课程名,先修课,成绩,用矩形表示实体 在框内写上实体名,用椭圆表示实体的属性,用无向边把实体与其属性连接起来,用菱形表示 实体间的联系,将参与联系的实体用线段连接,n,m,联系类型,主讲老师,51,7.3.4 数据库设计,E-R图实例2:学生信息 (A),52,7.3
17、.4 数据库设计,E-R图实例2 :学生信息 (B),53,7.3.4 数据库设计,E-R图实例2 :学生信息 (C),学生,家庭成员,关系,1,N,学号,姓名,性别,班级,学号,姓名,关系,主码,主码,1) 1:1关系,1端必须有主码 2) N端用1端主码做主码,54,7.3.4 数据库设计,E-R图实例2 :学生信息 (D),学号,姓名,性别,班级,课程号,学分,学生,课程,选课,M,N,课程名,学号,课程号,成绩,1) M:N关系中联系也有属性 2) 联系的属性中,用两端的主码做自己的主码,55,7.3.4 数据库设计,E-R图实例3:图书作者,图书,作者,写作,出版社,类别,页数,IS
18、BN,书名,姓名,出生地,身份证号,定稿时间,价格,包含实体“图书”和“作者”的E-R图,n,m,56,7.3.4 数据库设计,(3)逻辑结构设计 由E-R图转化为关系数据模型 在关系模型中,每个二维表都描述一种关系 关系是表的数学术语 实体被表示成表的形式 表是行和列的集合 每一行都对应一个记录 每一列都对应实体的一个属性,57,7.3.4 数据库设计,ER图向关系数据模型的转换方法 E-R图中每个实体,相应转换为一个关系(二维表) 该关系包括实体的全部属性 确定出该关系的主关键字(主码) 对关系的描述,一般表示为: 关系名(属性1,属性2,属性n) 例如:学生的关系可以描述为: 学生(学号
19、,姓名,年龄,性别,系别),58,7.3.4 数据库设计,对于E-R图中“联系”,根据联系方式不同,采取不同的方式 对于1: m的联系方式,将该联系并入m 端实体的关系中 在m端实体的属性中增加1端的主码 对于m:n的联系方式,将该联系转化成一个单独的关系(二维表) 该关系的属性包括:相连的各实体的主码以及联系本身的属性 对三个以上实体间的多元联系,方法同上,59,7.3.4 数据库设计,转换举例1,厂长号,姓名,年龄,厂长,厂号,厂名,地点,工厂,管理,1,1,厂长(厂长号,姓名,年龄),工厂(厂号,厂名,地点),60,7.3.4 数据库设计,转换举例2,仓库号,地点,面积,仓库,货号,品名
20、,价格,产品,存放,1,n,仓库(仓库号,地点,面积),产品(货号,仓库号,品名,价格),61,n,m,7.3.4 数据库设计,转换举例3,学号,姓名,年龄,学生,课程号,课程名,学时数,课程,学习,学生(学号,姓名,年龄),课程(课程号,课程名,学时数),成绩,学习(学号,课程号,成绩),62,7.3.4 数据库设计,转换举例4,讲授,课程,课程号,课程名,m,n,教师,职工号,姓名,性别,教材,书号,书名,p,教材(书号,书名),教师(职工号,姓名,性别),讲授(课程号,书号,职工号),课程(课程号,课程名),63,7.3.4 数据库设计,ER图向关系数据模型的转换转换过程示意图,E-R图
21、,关系模型,DBMS,64,7.3.4 数据库设计,三、数据库设计案例:“教学管理”数据库的设计 (1)设计“系和教师关系”的分E-R图,系,分配,教师,1,m,65,7.3.4 数据库设计,(2)设计“学生和课程关系”的分E-R图,学生,学习,课程,m,n,成绩,66,7.3.4 数据库设计,(3)设计“教师和课程关系”的分E-R图,教师,教学,课程,m,n,班评估,院评估,67,n,7.3.4 数据库设计,(4)将上述三个分E-R图综合,建立总E-R图,m,m,m,系,分配,教师,1,班评估,院评估,课程,教学,学生,学习,n,成绩,68,7.3.4 数据库设计,(5)将总E-R图转化为关
22、系数据模型 将学院“教学管理”总E-R图所描述的信息(概念)世界的概念模型,转化为计算机上由关系型DBMS支持的关系数据模型,69,7.3.5 数据库设计规范化,数据库设计规范化 规范化理论中的表是二维的,有以下属性 在表中的任意一列上,数据项应属于同一个属性; 不允许是数据结构 表中所有行都是不相同的 不允许有重复项出现 在表中行和列的顺序无关紧要,但不能重复,70,7.3.5 数据库设计规范化,第一范式(First Normal Form , 即 1NF ) 如果一个关系模式中的属性都是单纯的(不可再分为更小的属性),即同一列中不能有多个值。则称该 模式是属于第一规范型 以下关系模式不满足
23、第一范式,71,7.3.5 数据库设计规范化,第二范式(2NF ) 符合1NF,并且所有的非关键字都完全地依赖于关键字(即不存在部分依赖) 特例:主关键字仅包含一个数据元素 以下关系模式不满足第二范式 (学号、课程号、成绩、系名、系地址),72,规范化(2NF) 消除非主属性对码(主关键字)的部分函数依赖 方法:把原关系 (学号、课程号、成绩、系名、系地址) 分解为以下二个关系模式: (学号、课程号、成绩) (学号、系名、系地址),73,7.3.5 数据库设计规范化,第三范式(3NF ) 符合2NF,并且不存在非关键字传递地依赖于关键字,则称该关系模式属于第三规范型 特例:所有属性都是主属性
24、以下关系模式不满足第三范式 (学号、系名、系地址),74,规范化(3NF) 消除非主属性对码(主关键字)的传递函数依赖 方法:把原关系 (学号、系名、系地址) 分解为二个关系模式: (学号、系名) (系名、系地址),75,7.3.5 数据库设计规范化,规范化过程 符合第一范式 (学号、课程号、成绩、系名、系地址、系主任、系电话) 符合第二范式 ( 学号、课程号、成绩 ) ( 学号、系名、系地址 、系主任 、系电话) 符合第三范式 ( 学号、课程号、成绩 ) ( 学号、系名 ) ( 系名、系地址 、系主任 、系电话),76,7.3.5 数据库设计规范化,非规范化的数据(有重复的数据),1NF (
25、没有重复的数据),2NF(所有的非关键字均完全依赖于整个关键字),3NF(所有的非关键字均完全依赖于整个关键字,且只依赖于整个关键字),把所有非规范化的数据结构分解成若干个二维表形式的数据结构,并指定一个或若干个关键字,若关键字由不止一个元素组成,必须保证所有的非关键字数据元素依赖于整个关键字,否则去掉部分依赖关系。,检查所有非关键字数据元素是否彼此独立,如果不是,去掉传递依赖关系,通过去除冗余的数据元素,构成都是3NF的数据结构。,77,7.4 数据库的发展,数据库的发展 数据仓库 数据挖掘 决策投资数据仓库的策略 数据库技术发展的趋势,78,7.4.1 数据仓库,数据仓库 数据往往放在不同
26、的业务数据库中,数据难以收集 数据仓库是通过集成企业的关键运行数据,产生一致的、可靠的、易于访问的数据形式 数据仓库(Data Warehouse)是信息的逻辑集合,这些信息来自于许多不同的业务数据库,并用于支持企业的分析活动和决策任务,79,7.4.1 数据仓库,数据仓库的特征 数据仓库只包含与用户进行决策有关的信息 数据仓库将来自于不同数据库的信息结合在一起 数据仓库是多维的 包含若干层的行和列 用户可以通过数据字典了解信息的逻辑结构、信息的来源和处理方式,80,7.4.1 数据仓库,数据仓库支持决策而不是事务处理 一般数据库 面向事务对象 支持联机事务处理(OLTP) 数据仓库 面向决策
27、任务 支持联机分析处理(OLAP),81,7.4.2 数据挖掘工具,数据挖掘工具(Data Mining Tools) 是用户对数据仓库进行信息生成的软件工具 支持联机分析处理(OLAP) 通过对数据的处理支持决策任务,82,7.4.2 数据挖掘工具,数据挖掘工具包括 查询与报表工具 范例查询工具(QBE) 结构化查询语言(SQL) 报表生成器,83,7.4.2 数据挖掘工具,智能代理 应用神经网络、模糊逻辑等人工智能工具形成OLAP信息发现的基础 多维分析工具 是一种横纵分割的技术,允许人们从不同的角度来观看多维信息,84,7.4.3 数据库技术发展的趋势,数据库技术发展的趋势 分布式数据库 数据从集中式存储和处理转向分布式存储和处理 数据存储的物理地址是分散的,在分布式数据库管理系统和计算机网络的支持下,形成一个逻辑上的整体,85,7.4.4 数据库技术发展的趋势,面向对象的多媒体Web数据库 多媒体技术在数据库中的应用 面向对象技术在数据库中的应用 用Web技术集成数据资源,