1、分析用户的查询需求,总述,项目管理 (方法论, 维持元数据),定义数据仓库的 概念及术语,规划一个成功 的数据仓库,分析用户 查询需求,选择一个处理 体系结构,建模数据仓库,规划仓库存储,ETT (构建数据仓库),满足业务需求,支持最终 用户存取,管理数据仓库,目 标,在完成这一课后,你应该能够做到以下几点:确定仓库的用户明确如何收集用户需求确定有关管理查询存取的任务确定支持OLAP查询工具的不同数据库模型描述查询存取的体系结构,用户类型,用户项目代表 项目经理 业务分析人员,用户访问,用户的类型 用户项目代表 临时用户或项目经理 业务分析人员或资深用户,结构化的,非结构化的,收集用户需求,焦
2、点领域: 用户从事什么样的业务以及业务驱动是什么 用户需要什么属性(相对重要的属性) 业务层次是什么 用户使用什么数据以及他们喜欢使用怎样的数据 需要什么层次的细节描述或总结 需要什么类型的前期数据访问工具 用户希望看到怎样的查询结果,收集用户需求:可能的障碍,以下是一些可能的障碍: 数据仓库的业务目标还没有明确界定 数据仓库的范围太宽 对业务系统和决策支持系统的目的和功能的一些误解,数据存取工具需求,简单的报告 复杂的趋势分析 回归分析 多维数据分析 异常报告 预测 数据操作 数据挖掘 批量执行的参数报告 基于网络还是客户机服务器类型(或两者都是),数据存取策略,尽早定义用户需求 尽早决定工
3、具的选择 明确用户的角色和存取需求,用户查询的发展过程,从简单开始 变得更善于分析 需要不同的技巧和灵活的工具,是什么?,为什么?,为什么?,为什么?,培 训,方法 非正式的: 一对一或小班上课 正式的: 大班上课 自学 基本内容 登陆 访问元数据 创建和提交一个查询 解释结果 保存查询和存储结果 利用资源 学习仓库的基本原理,ILT,IDL,CBT,查询效率,用户需要考虑的事项 成功地完成 更快速的执行查询 更少的CPU占用率 更多机会进行更深层次的分析,查询效率,设计者需要考虑的事项 使用索引 选择最小量的数据 启用资源管理器 将瓶颈减到最小 开发可重复利用的查询 使用准备好的和经测试过的
4、查询 使用平静的周期,收费模型,收费模型的例子: 单调的分配模型 基于事务的模型 电话服务模型 有线电视模型 开发自己独特的模型 避免使得用户不再使用数据仓库的收费模型,查询调度与监视,查询调度 管理信息的使用 直接查询 执行查询 设置工作队列的优先级 查询监视 监视资源密集型查询 找出未被使用的查询 截获对概要数据利用不充分的查询 截获经常执行汇总计算的查询 检测出非法进入,查询管理和监视工具,使用工具,日程安排程序,Oracle企业管理器 考虑 自动化的水平 技术接口 成本,安 全,不能忽视 主题领域的提出者: 审查及批准对访问权利的要求 增强识别能力 安全透明机制 容易执行,维护及管理,
5、安全策略,定义一个策略: 分配给业务领域的拥有者 确保不可见性 确保方便的管理 考虑审计 管理口令,基于角色的安全体系,对主题的访问: 新用户访问概要数据 有经验的用户访问所有数据 部门级别的访问 限制对象的访问 在载入期间访问,Oracle8i 中的应用文本及良好的访问控制,应用 文本,访问 策略,表,我是谁? 我在哪里?,联机分析处理与决策支持系统的比较,OLAP(联机分析处理 )被用于多维分析。 DSS (决策支持系统)提供了一个系统使得依据此系统能够做出决策。 OLAP工具提供了一种决策支持的能力。 OLAP对数据仓库提供了分析的能力。 其他的术语: EIS(领导信息系统) KBS(知
6、识管理系统),联机分析处理的功能,循环地螺旋上升并更深入地研究一系列连续级别的细节数据。 根据大量数据来创建和检查数据。 作明确的比较或者是相对差异。 执行异常处理及趋势分析。 执行高级的分析功能,如预测, 建模及回归分析等。,OLAP 的12 准则,1. 多维概念视图 2. 透明性准则 3. 存取能力准则 4. 稳定的报表性能 5. 客户/服务器体系结构,OLAP 的12准则,6. 维的等同性准则 7. 动态稀疏矩阵处理准则 8. 多用户支持能力准则 9. 不限制的跨维操作 10. 基于直觉的数据操纵 11. 灵活的报告生成 12. 不受限的维及聚集层次,1001 1007 1010 102
7、0,关系数据库模型,31 42 22 32,F M M F,Anderson Green Lee Ramos,属性 1 Name,属性 2 Age,属性 3 Gender,记录 1 记录 2 记录 3 记录 4,上表举例说明了雇佣关系.,属性 4 Emp No.,多维的数据库模型,这些数据是多维数据的交集。,Store,GL_Line,Time,FINANCE,Store,Product,Time,SALES,Customer,基于关系型数据库的OLAP服务器(ROLAP),优点: 具有良好的使用环境并配有很多能够提供产品支持的专家 可能结合数据仓库及操作型系统进行使用 拥有很多具有先进特点的
8、工具,包括提出改善性能的报告服务器 缺点:缺乏OLAP提供的复杂功能和分析能力 那些产品可能会受它们所访问的数据的限制,以多维数据库为基础的OLAP服务器(MOLAP),优点: 能够快速访问大批量数据 全面和广泛的的库能够针对分析提供复杂的功能 强大的建模和预测能力 可以访问多维的和关系数据库结构 缺点: 如果没有将时间维进行聚集,那么很难改变维数 缺少对于大量数据的支持,MOLAP 服务器,应用层以多维结构来存储数据 表示层提供多维的视图,MOLAP 引擎,DSS 客户端,应用层,数据仓库,MOLAP 服务器,数据 数组 高速缓冲存储器 从服务器载入 有效的存储及处理 对用户隐藏复杂性 利用
9、已经聚集好的数据和预先计算好的结果来进行分析,MOLAP 引擎,DSS 客户端,应用层,数据仓库,ROLAP 服务器,仓库存储原子数据. 应用层为三维视图生成 SQL语句 表示层提供多维视图.,ROLAP 引擎,DSS 客户端,应用层,仓库服务器,多维SQL,ROLAP 服务器,在服务器中的数据及元数据 数据的多维视图 高连通性 无限制的 数据库容量 查询标准 由工具产生的复杂SQL语句,ROLAP 引擎,DSS 客户端,应用层,数据仓库服务器,多层 SQL,MOLAP, ROLAP, and HOLAP,OLAP服务器,用户,数据仓库,?,?,MOLAP,OLAP服务器,用户,数据仓库,查询
10、,数据,MDDB,阶段性载入,ROLAP,OLAP服务器,用户,数据仓库,数据缓存,实时获取,缓存,查询,数据,Hybrid (HOLAP),OLAP服务器,用户,数据仓库,获取,缓存,MDDB and cache,阶段性载入,查询,数据,选择报告器的体系结构,业务需求 用户适应性 图形用户界面接口 计算机体系结构 网络体系结构 网络吞吐量 开放性,简单,复杂,查询操作,Good,OK,分析,选择报告器的体系结构,性能 规模 管理 企业远景,简单,复杂,查询性能,Good,OK,分析,客户-服务器访问,主机能量的保护 工具 简单查询 复杂查询 数据挖掘,公共协议,公共网关,公共协议,仓库服务器
11、,Windows Macintosh OS/2 UNIX,Web 访问,Internet: 全球的网络 Intranet: 公司级访问 低成本 硬件 通讯 应用 安全机制,胖客户端,PC 客户机到高级终端服务器 需要更多的软件及硬件 难于管理 提供有限的应用 提供的许多软件都具有限制性 购买,维护及许可证的费用颇高,瘦客户端,浏览器到服务器 降低硬件成本 降低许可成本 开放式部署 挑战 缺少一个库 更具安全性, 数据完整性及分布式能力 健壮性、规模性和扩展性 例子: Oracle的NC,总结,这次课讨论了以下几个问题: 为了使用户能够访问仓库中的信息必须创建数据仓库 决定用户查询需求是数据仓库项目执行的一项重要部分 为高效的数据访问能力所作的规划对于数据仓库项目的成功执行起着重要作用,实践 6-1 总述,实践包含了以下几个问题: 完成用户概况练习 为用户回答涉及到确定数据仓库查询访问的是非题 完成 “Security Consideration Checklist” 练习,