1、规划数据仓库的存储,总述,项目管理 (方法论, 维持元数据),定义数据仓库的 概念及术语,规划一个成功 的数据仓库,分析用户 查询需求,选择一个处理 体系结构,建模数据仓库,规划数据仓库 存储,ETT (构建数据仓库),满足业务需求,管理数据仓库,支持最终 用户存取,目标,在完成这一课后,你应该能够做到以下几点:讨论不同的分割方法和索引方法考虑不同的RAID(廉价冗余磁盘阵列)等级在保护数据库方面的好处和局限性,数据分割,数据分割使得它们成为能够独立处理的物理单位,容易做: 重构 重组 删除 恢复 监视 管理 存档 索引,Feb 98,Mar 98,添加,丢弃,命令表,其它数据不受影响,Jan
2、 98,分割的对象,表: 事实表 维表 索引,水平分割,表和索引数据按以下形式分割: 时间 销售区域或人 地理位置 组织机构 业务流程WHERE 子句中包含的候选列 分析决策需求,垂直分割,你可能会使用垂直分割的时候: 为改善查询和更新速度 用户需要存取特定的列 一些数据不是频繁地被改变 去除维本身的文本描述信息,分割方法,范围分割(Oracle8 和Oracle8i) 哈希分割(Oracle8i) 复合分割(Oracle8i),范围分割,哈希分割,复合分割,星型查询的最佳化,星型模型的最佳性能 1. 创建用来被查询的维表 2. 使用笛卡尔积, 逆向计算 3. 更小的参考表 4. 结果被进行连
3、接操作 5. 事实表产生查询结果,= 查询结果,1 2 3 4 5,星型转换,STAR_TRANSFORMATION_ENABLED,Key 1,Key 2,Key 3,Key 1,Key 2,Key 3,Product_Table,Market_Table,Time_Table,Dollars,Fact_Table,Year,Month,Stat,Brand,1002,1001,1003,March,1998,ABC,SF,6000,索引,使用索引是因为: 节省巨大的成本,极大地提高性能和可测量性 可通过只读一个包括所需行的磁盘块指引的索引代替一个整表的扫描 通过读索引,而不是查询整张表,可
4、以快速地找到需要查询的行在磁盘中的位置。,B-树 索引,最普通的索引类型 被用于具有较多的列 返回行数少,位图索引,优化性能和节省存储空间 存储值仅为 1和 0 当出现以下情况时,通常使用位图索引而非B-树索引: 表很大 列数相对低维,位图索引的产品颜色,Blue - 1000100100010010100,Green - 0001010000100100000,Mauve - 0100000011000001001,Gold - 0010001000001000010,Oracle 8 和Oracle8i 索引的改进,Oracle8 索引改进: 分割索引 被组织的索引表 Oracle8i 索
5、引改进: 基于功能的索引 改进的新位图索引 联机索引创建和重建 降序索引 当索引建立时可收集统计数据,保护数据库,大型数据库必须有RAID(廉价冗余磁盘阵列) RAID 改善了: 可靠性 存储管理 RAID有不同的级别 可以通过磁盘分块避免磁盘使用的竞争,RAID 0: 分块,文件被写到一个四驱动器的磁盘序列中: 块 1 在驱动器 1 块 2 在驱动器 2 . . . 块5 在另一个扇区的驱动器1上,文件A (a),文件A (e),文件A (b),文件A (f),文件A (c),文件A (d),磁盘阵列控制器,RAID 0:分块,优点: 对同时读写有益 无冗余 可升级 局限: 不推荐用于关键任
6、务系统 数据丢失的时候不能恢复 一个坏扇区影响到整个磁盘的数据,RAID 1: 镜像,复制的文件存储在镜像磁盘里,磁盘阵列控制器,磁盘 1,磁盘1 Mirror,磁盘2,磁盘2 Mirror,文件 A (a),文件A (b),文件A (a),文件A (b),RAID 1: 镜像,优点: 完全的数据冗余 无性能损失 改善读取 具有可测量性 局限: 在RAID的所有配置中成本最高,RAID 5: 独立的磁盘阵列,使用奇偶交叉排序使数据分块,File C (b),File C (e),P (d,e,f,g,h),File C (a),File C (d),File (h),P (i,j),File
7、C (c),File C (f),File C (i),P (a,b,c),File C (g),File C (j),磁盘阵列控制器,磁盘 1,磁盘 2,磁盘 3,磁盘4,RAID 5: 独立的磁盘阵列,优点: 有效的数据整合 数据重建 多并发寻求交叉阵列 可升级的 局限: 磁盘重叠 数据写入比率,仓库典型的使用RAID 0, 1, or 5,备份,在设计阶段规划 为 VLDBs使用热备份 备份必需的构件: 事实表和维表中的数据 仓库模式 元数据模式 元数据,输入/输出工具磁盘空间时间,总结,本节讨论了以下课题: 解释垂直分割和水平分割 区分不同类型的分割方法 区分B-树索引和位图索引 理解为什么典型的数据仓库使用RAID 0, 1, or 5 来保护数据库,实践 9-1 概述,实践包括以下课题: 定义分割的方法 识别索引方法 确定RAID 级别和为每个级别提供依据,