1、分布式数据库系统DDS,李锐 http:/ Database Systems,课程简介,学习分布式数据库系统基本概念及其原理 掌握分布式数据库设计的基本方法 研究分布式数据库访问策略及其优化等问题 解决跨地域信息系统开发中的数据库设计问题,课程学习方法,讲课 文献阅读 设计作业(1-2次) 实验项目,第0讲: 引论,分布式数据库发展 分布式数据库概念 分布式数据库特性和优缺点 分布式数据库分类 分布式数据库存储 分布式数据库的独立性和透明性,TEXTBOOK 邵佩英 分布式数据库系统及其应用 第二版 科学出版社 M.T. zsu and P. Valduriez. Principles of
2、 Distributed Database Systems, 2nd edition. Prentice Hall 贾焰 分布式数据库技术. 国防工业出版社 周龙骧 分布式数据库管理系统实现技术 科学出版社 Journal DISTRIBUTED DATABASE SYSTEMS: WHERE ARE WE NOW?,数据库系统体系结构,集中式数据库系统 客户/服务器数据库系统 并行数据库系统 分布式数据库系统,数据库系统体系结构概述,数据库系统的体系结构与计算机系统的体系结构密切相关:集中式体系结构 - 集中式数据库系统计算机的联网 - 客户/服务器数据库系统并行处理能力 - 并行数据库系统
3、分布计算能力 - 分布式数据库系统,集中式数据库系统,运行在一台计算机上,数据集中存储在一台计算机中,不与其他计算机系统交互的数据库系统。规模:个人微机 - 大型主机单用户系统:管理简单多用户系统: 具有并发控制、故障恢复等能力,客户/服务器结构,微机变得速度更快,能力更强,价格更低- 集中式系统中的终端被微机所代替- 集中式系统直接执行的用户界面功能由微机来处理集中式系统 - 客户机/服务器系统,客户/服务器结构,客户/服务器系统的一般结构,客户,客户,客户,客户,. . .,服务器,网络,客户/服务器数据库系统,数据处理任务在客户与服务器间进行划分 好处:有利于充分利用网络中的计算资源有利
4、于减少网络上的传输量 数据库后端功能:存储管理、查询处理、事务管理。具体包括存取结构、查询计算和优化、并发控制、故障恢复等。 数据库前端功能:应用的处理,具体包括表格生成工具,报表书写工具,图形用户界面工具等。,并行数据库系统 parallel database systems,利用并行计算机系统提供的并行处理能力,通过并行地使用多个CPU和硬盘来提高处理速度和I/O速度,从而加速数据库的活动。主要研究内容 并行数据库的物理组织 并行数据操作算法的设计、分析与实现 并行数据库查询优化,分布式系统,分布计算 Distributed Computing 分布式软件系统(Distributed So
5、ftware Systems)是支持分布式处理的软件系统,是在由通信网络互联的多处理机体系结构上执行任务的系统 分布式操作系统 分布式程序设计语言及其编译(解释)系统 分布式文件系统和分布式数据库系统等。,分布处理,如果不分程度,则到处都有,即便是单处理器的计算机系统中也有分布处理。其实,计算机发展的过程就是一个不断将处理分布化的过程,例如,将CPU和I/O功能分开就是一个分布处理的样例。不过,现在我们讲的分布处理则要复杂得多,单处理器系统不包括在内。,分布计算系统(distributed computing system),定义为一组通过计算机网络互联的、自主的处理单元(不一定同构),协同工
6、作,完成指派的任务。所谓的计算单元,指的是可以在其上面执行程序的计算设施。,分布式数据库的产生与发展,比较成熟的数据库系统出现于20世纪六十年代末和七十年代。以IMS为代表的层次型数据库系统于1968年问世。 20世纪七十年代初,美国CODASYL的数据库任务组的提出了有名的网络数据库模型DBTG。 E. F. Codd于20世纪七十年代中期提出了关系数据库。 七十年代,计算机科学技术的发展与飞速发展的现代通信技术相结合,导致了计算机网络的出现。这个时期,世界上先后建成了许多规模巨大的、全国性的广域计算机网络对经济、国防、情报、科学技术和社会生活产生了深刻的影响。随着微型计算机的广泛应用,又自
7、然地提出了这样的新问题,为了加强和扩大微型计算机处理数据的功能,要求将许多分布在不同地点上的微型计算机互连起来,共同工作。这样,进入了分布式数据库时代。,文件系统,数据库系统,数据库系统的一个主要动机是把一个企业的操作数据集成起来,从而提供一个集中的数据访问。 计算机网络技术针对集中的想法做相反的努力,分散化 分布式数据库力图把两者协调起来。,分布式数据库系统,分布式数据库系统(Distributed database system(DDBS) 技术可以看作是数据处理即数据库系统和计算机网络技术的结合,集成,Database Technology,Computer Networks,integ
8、ration,distribution,integration,Distributed Database Systems,WHAT IS A DISTRIBUTED DATABASE SYSTEM? 究竟什么是分布式数据库?,What is DDBS,A Collection of multiple, logically interrelated databases distributed over computer network. 物理分布(分布而非集中)-集中式 逻辑整体(分布而非分散)-分散式 站点自治(部分集中而非完全并行)-多处理机系统上面三点是衡量是否DDBS的重要标准,Cent
9、ralized DBMS on a Network,Site 5,Site 1,Site 2,Site 3,Site 4,Communication Network,Distributed DBMS Environment,Site 5,Site 1,Site 2,Site 3,Site 4,Communication Network,数据库分布式的管理-在技术上引起新问题,,是由一个节点来统一管理各分数据库呢?还是各节点在必要时,都挺身而出代行管理的职能呢?这是集中与分散的问题。 每个节点的数据只在本节点保留一份呢,还是存储备份于其他各节点以防数据的破坏丢失呢?这是可靠性与节约之间的矛盾。
10、当数据库操作涉及多个分数据库上的数据时,应该把这些数据传送到哪个节点上去进行操作最佳呢?这是运筹帷幄的优化问题,等等。 ,关键问题,分布式系统实现考虑的核心问题:尽量将网络的使用减到最小,即尽量缩减消息的数量和大小。具体涉及到: 分布数据库设计 分布查询处理 分布目录管理 分布并发控制 分布死锁管理 分布DDBMS的可靠性 操作系统的支持-如何提供一致的操作系统支持,当前的实际应用,真正的DDBMS 实际应用范围 实现案例 具有部分分布功能的DBMS 应用层实现主要的分布功能 本课程介绍分布式数据库的基本原理和理论研究基础,(非严格定义),一个分布式数据库系统包含一个节点的集合,这些节点通过某
11、种类型的网络连接在一起。其中: 每个节点是一个独立的数据库系统节点 这些节点协调工作,使得任何一个节点上的用户都可以对网络上的任何数据进行访问,就如同这些数据都存储在用户自己所在的节点上一样。,特性,物理上分布,逻辑上整体 数据分布透明性 集中和自治机制 数据冗余一个理想的真正的分布式数据库系统应该让用户感觉不到其是一个分布式系统,这就是分布式系统的重要特性 透明性,分布式数据库的优越性,适应企业实际上分布的需要 物理分布 数据共享 提供一个环境,使得一个节点上的用户可以访问存放在其他节点上的数据。 局部自治 每个节点可以对局部存储的数据保持一定程度的控制 高可用性 若一个节点发生故障,其他的
12、节点可能还能继续运行,数据分布,分布式数据库的缺点,由于要保证各节点间的正确合作而增加了复杂性。主要表现为软件开发代价出现错误的可能性更大 处理开销增大,分布式数据库的目标 - 基本原则,对于用户来讲,分布式系统必须看起来完全象一个非分布式系统。 数据操作完全一样 数据定义有所扩充即,分布式系统的用户的操作与非分布式系统是完全相同的。分布式系统的所有问题是(或应当是)内部的、实现级别的问题,而不是外部的、用户级别的问题。,分布式数据库的-分布式数据库需满足的12规则(C.J.Date),分布式数据库的目标 -具体规则和目标:,1. 局部自治 2. 不依赖于中心节点 3. 不间断的处理 4. 位
13、置独立性 5. 分片独立性 6. 副本独立性,7. 分布式查询处理8. 分布式事务管理9. 硬件独立性 10. 操作系统独立性 11. 网络独立性 12. DBMS独立性,在给定节点上的所有操作都是由所在节点控制的。 本地数据的所有权和管理权在本地,由本地全权负责。 。,所有的节点平等对待,不依赖中心“主”节点提供集中的查询处理、集中的事务管理,或集中的名字服务等。,高可靠性,高可用性,用户不需要了解数据实际存储的位置,就如同数据都存储在他所在的本地节点一样地对数据进行操作。,用户应该可以从逻辑的观点出发进行操作,就如同数据实际上并没有分片一样。,用户可以从逻辑的高度对数据进行操作,就如同根本
14、没有副本的存在一样。,DBMS + 全局应用 DDBMS,全局用户,局部用户,DBMS + 全局应用 DDBMS,DBMS + 全局应用 DDBMS,通讯网络,用户,全局用户,局部用户,局部用户,用户,全局用户,分类方法,按管理系统性质 按控制方式-集中式与分布式分类 按重复程度分类,按管理系统性质分类,说法一同构型-指所有节点的局部数据库管理系统运行在相同的平台上,而且每个局部数据库管理系统都相同。 异构型说法二 同质型 异质型 (同构指 数据模型),同质(构)型,各节点之间通过通信网络形成统一的整体。 同构型的DDBMS对于并发控制、冗余数据的一致性等问题容易处理,但建库的代价比较高。 同
15、构型分布数据库系统的例于有美国IBM公司的R*系统 CCA公司的SDD-l系统和德国斯图加特大学的POREL系统等。,异质(构)型系统,是指分布环境中各节点上的数据模型和数据语言都可能不同。 一般的异质型系统是自底向上设计的,即把已有的不同模型的数据库联合在一起,在不同节点上的数据模型和数据语言是不同的。这样,异构比同构型系统实现起来要困难一些,为了在两个节点上的局部DBMS之间进行信息交换,就要对数据模式和数据语言进行转换和映射工作。,按控制方式-集中式与分布式分类,所谓集中控制的DDBMS是指所有控制事务和全局数据字典都由一台叫做中心计算机的节点进行管理。 分布式控制的DDBMS,按重复程
16、度分类,部分重复式-是指每个节点都存贮DB数据实体的任意子集。部分重复式又称混合式,例如美国的SDD-1系统等。 完全重复式-是指每个节点都存贮整个DB数据实体的副本。也有文献把完全重复式称为复制式。,分布式数据存储,在分布式数据库中存储关系r的几种方法: 数据复制 数据分片 数据复制与分片 不复制也不分片,分布式数据存储,数据复制 系统维护关系r的几个完全相同的副本(拷贝),各个副本存储在不同的节点上。全复制:系统中的每个节点都存有关系r的一个拷贝。 主副本:指定关系r的多个副本中的一个作为主副本,从而简化副本管理。,分布式数据存储,数据复制的优缺点: 可用性增强:当包含关系r的节点之一发生
17、故障时,关系r可以在另外的节点上找到。 并行度增大:几个节点就可以并行地处理涉及关系r的查询。并可以减少数据在节点间的移动。 更新开销增大:对关系r的更新必须传播到包含r的副本的所有节点。,分布式数据存储,数据分片 将关系r划分为多个片段r1,r2,rn。这些片段中包含足够的信息,使得能够重构原始关系r 水平分片:将关系r划分为多个子集r1,r2,rn。r的每个元组必须至少属于一个片段。 垂直分片:将关系r(R)投影到R的属性的多个子集R1,R2,Rn。为保证关系r能被重构需要在每个Ri中都包含R的主码属性,或特殊的tuple-id属性 混合分片:在水平分片或垂直分片的结果上再进行垂直分片或水平分片。,分布式数据存储,数据复制与分片 将数据复制和数据分片技术连续地作用于同一个关系,片段可以被复制,片段的副本也可以进一步分片,等等。 不复制也不分片 对关系r不进行分片,并且只在一个节点上存储关系r。,独立性和透明性,独立性 逻辑独立性 物理独立性 分布独立性(新增) 透明性 分片透明性 高级 位置透明性(分配透明性) 局部数据透明性 低级,思考,真正理解了什么是透明性了吗? 以你所知,当前的各类DBMS,对DDBS的支持如何?,