1、分布式并行数据库,Basic,分布式并行数据库,Advanced,先进技术与研究方向,分布式并行数据库,研究背景及意义,分布式并行数据库: 传统数据库局限:数据量的增大,对处理数据速度要求提升 一个由若干独立自治的数据库系统组成的集合,其中每个成员数据库都提供一组功能,用于实现与其它成员交换数据和服务。 分布式计算、并行处理以及网络技术相结合的产物。 目标: 高性能:速度提升&范围提升 高可用性,分布式并行数据库研究,联想深腾1800高性能服务器 64个节点(8*8) CPU:E5620(2.4G 四核)*2 MEM:24G(4G DDRIII 1333*6根) DISK:500G 3.5寸
2、SATA硬盘 *1块,分布式并行数据库研究,发展历程,分布式并行数据库研究,Advanced,先进技术与研究方向,Advanced Content,分布式并行数据库研究,1,2,3,4,发展趋势与研究现状,分布式数据库事务管理,分布式数据库并发控制,分布式数据库可靠性度量,发展趋势,分布式并行数据库研究,构造某种透明性的分布式数据库,支持对物理上分布的多个数据库全局访问和数据库之间的互操作性,国内外研究现状,分布式并行数据库研究,所有连入网络并提供信息服务的自治数据库的集合,移动计算机可以在不同的地方连通网络。,物理分布性 逻辑整体性 节点自治性,Efficient Keyword Searc
3、h Across Heterogeneous Relational Databases 2中介绍提出的Kite算法是在异构的关系型数据库的关键字搜索问题的一种解决方案。 结合模式匹配和结构发现技术,通过外键找到异构数据库之间的连接。然后利用连接自动发现,跨越多个数据库,实现快速和有效的分布式数据查询。 这样跨越多个数据库和关系的查询结果的连接具有重要意义。 论文贡献(实验表明): 查询处理算法是有效的 该算法可以在跨越多个异构数据库的查询中,提供高品质的查询结果,而无需人为的调节。,分布式并行数据库研究,异构分布式数据库,移动数据库,P. PETRANET: a Power Efficient
4、 Transaction Management Technique for Real-Time Mobile Ad-hoc, Network Databases 5中,Gruenwald, L.提出了一个PETRANET系统原型,并在军事数据库应用程序开发中实现,有效解决了Ad hoc网络动态、能量有限、交易限制等问题。 论文贡献:实现了低功耗事务管理技术,实时移动Ad-hoc网络数据库。,分布式并行数据库研究,分布并行数据库系统,Research on constructing distributed large database based on J2EE 随着信息的不断扩大和网络的普及,
5、单一的数据库访问方式,不能满足用户的需求。访问分布式数据库的要求增加。 6 基于Alchemi算法,实现分布式数据库查询的网格计算体系结构。用计算网格技术构建分布式数据库,通过实验验证了算法的查询效率和准确性。 论文贡献:高效率,高准确性,分布式并行数据库研究,分布式数据库中的事务管理,概念,分布式并行数据库研究,分布式数据库中的事务管理,分布式事务执行的控制模型,分布式并行数据库研究,分布式数据库中的事务管理,主从控制模型,分布式并行数据库研究,分布式数据库中的事务管理,三角控制模型 避免了在分布式事务管理器与局部事务管理器之间不必要的数据传输,分布式并行数据库研究,分布式数据库中的事务管理
6、,层次控制模型 接收到的事务优化成另一个分布式事务,并将其分布到相关的其他局部事务管理器上去,分布式并行数据库研究,分布式数据库系统的并发控制,并发控制的概念 并发控制就是合理控制对数据库的并发访问及维护数据库的正确性 以集中式数据库的并发控制为基础,主要保证多个分布式事务队数据并发执行的正确性。 悲观并发控制法VS乐观并发控制法 封锁算法和时间戳算法,分布式并行数据库研究,分布式数据库系统的并发控制,并发控制的两阶段封锁技术,分布式并行数据库研究,保证该调度是可串行化,分布式数据库系统的并发控制,基于时间戳的并发控制技术 基于时间戳的并发控制算法与基于封锁的算法不同,它并不试图通过互斥来支持
7、串行性,而是选择一个事先的串行次序依次执行事务。 事务管理器将给每个事务Ti分配一个在整个系统唯一的时间戳Ts(Ti) 时间戳是用来唯一地识别每个事务并允许排序地标识符。,分布式并行数据库研究,分布式数据库系统的并发控制,时间戳算法规则,分布式并行数据库研究,(1) 每个事务在激活时得到系统赋予的时间戳。 (2) 事务执行的每一个读写操作均具有该事务的时间戳。 (3) 对于每个数据项x,记录了最大的时间戳的读操作和最大的时间戳的写操作。称之为x的读操作的时间戳RTM(x)和X的写时间戳WTM(x)。 (4) 令TS为对x的写操作的时间戳。如果TSWTM(x),则拒绝该读操作,并重启动该事务,否
8、则执行读操作,且把X的读时间戳改为TS。 (5) 令TS为对x的写操作的时间戳。如果TSRTM(X)或TSWTM(X),则拒绝该操作并重新启动该事务,否则执行写操作并把WTM(x)改为TS。,分布式数据库系统的并发控制,分布式数据库系统中的死锁处理 解决死锁的主要方法有两类: 使用预防死锁协议,避免系统进入死锁状态; 允许系统进入死锁状态,在系统进入死锁状态以后使用死锁检测和恢复机制使系统摆脱死锁。,分布式并行数据库研究,分布式数据库中的可靠性,数据库在一个给定的时间间隔内不产生任何失败的概率。可靠性度量 平均故障间隔时间(MTBF)平均修复时间(MTTR)。不一致性监测 检查点检测方式,心跳检测方式,分布式并行数据库研究,正确性,可靠性函数R(t),总结,分布式并行数据库高性能、高可用性,广泛应用 一致性机制保证分布式并行数据库系统能正常提供数据库服务的基础 并发控制可有效的预防分布式事务中的死锁现象 不一致性检测使系统及时地恢复到最佳运行状态,提高了分布式并行数据库系统的可用性。,分布式并行数据库研究,展望,分布式并行数据库研究,并行数据库的物理组织,并行数据操作算法的设计、分析与实现,并行数据库查询的优化处理,Thank You !,