1、1数据仓库与数据挖掘试题一、 判断题(每小题 1 分,计 30 分,答题时每 5 个答案写在一起)1. 数据库作为数据资源用于管理业务中的信息分析处理。 (X)2. 数据库的查询不是指对记录级数据的查询,而是指对分析要求的查询。 (X)3. 关系数据库是二维数据(平面) ,多维数据库是空间立体数据。 (v)4. 数据进入数据仓库之前,必须经过加工与集成。 (V )5. OLAP 使用的是当前数据;OLTP 使用的是历史数据。 (V)6. 对数据仓库操作不明确,操作数据量少。 (X)7. 数据集市实现难度超过数据仓库。 (X)8. OLAP 使用的数据经常更新;OLTP 使用的数据不更新,但周期
2、性刷新。 (X)9. 数据集市可升级到完整的数据仓库。 (V )10. 数据库中存放的数据基本上是保存当前综合数据。 (X)11. OLAP 可以应分析人员的要求快速、灵活地进行大数据量的复杂处理。 (V)12. OLAP 支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持。(V)13. OLTP 的事务处理量大,处理内容比较简单但重复率高。 (V)14. 数据仓库的用户有两类:信息使用者和探索者。 (V )15. 对数据库的操作比较明确,操作数据量大。 (X)16. 数据库用于事务处理,数据仓库用于决策分析。 (V )17. 信息使用者以一种可预测的、重发性的方式使用数据仓库平台
3、。 (V )18. OLAP 一次处理的数据量大;OLTP 一次性处理的数据量小。 (V)19. OLTP 每次操作的数据量不大且多为当前的数据。 (V )20. 数据仓库系统由数据仓库(DW ) 、仓库管理和分析工具三部分组成。 (V)21. 随着业务的变化, 数据仓库中的数据会随时更新。 (X)22. 数据集市的规模比数据仓库更大。 (X)23. 数据集市具有更详细的、预先存储在数据仓库的数据。 (V )24. 不同维值的组合及其对应的度量值构成了不同的查询和分析。 (V )25. OLAP 使用细节性数据,OLTP 使用综合性数据。 (X)26. 数据集市由企业管理和维护。 (X)27.
4、 OLAP 的概念模型是多维的。 (V)28. 数据库已经成为了成熟的信息基础设施。 (V )29. 数据库既保存过去的数据又保存当前的数据。 (X)230. OLTP 面对的是事务处理操作人员和低层管理人员。 (V)二、 填空题(每小题 1 分,计 10 分)1. 信息使用者通常查看 概括数据 或聚集数。2. 探索者的任务是寻找公司 数据 内隐含的价值。3. 数据立方体是在所有可能组合的维上进行分组 聚集计算 的总和。4. 基本的多维数据分析操作包括 切片 切块 、旋转、钻取等。5. 数据立方体的构建和维护等计算方法成为了 多维数据分析 研究的关键问题。6. OLAP 是建立在网络上的 开发
5、 体系结构。7. 在数据立方体中, 不同维度 组合构成了不同的子立方体。8. 不同的 数据仓库 需要建立不同的数据库。9. ETL 是建立 数据仓库 的重要步骤,需要花费开发 数据仓库 70%的工作量。10. 数据仓库的数据是 综合 的集成。三、 名词解释(每小题 5 分,计 30 分)1、数据集市 4、元数据2、数据挖掘 5、知识发现3、商业智能 6、数据仓库1,数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。Data Marts 是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体
6、解决方案。 4,元数据(metadata)定义为关于数据的数据( data about data) ,即元数据描述了数据仓库的数据和环境。2,数据挖掘(DM) : KDD 过程中的一个特定步骤,它用专门算法从数据中抽取知识。3,商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。5,知识发现(KDD):从数据中发现有用知识的整个过程。6,数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。3四、 简答题(每小题 5 分,计
7、 30 分)1. 简述数据仓库与数据挖掘的关系?数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。2. 比较统计学与数据挖掘的异同? 统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等) ,进行数值计算(如初等运算)的定量分析,得到数量信息。 数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等) ,得到规则知识。 统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。3. 比较 OLAP 的数据模型 MOLAP 与 ROLAP?MOL
8、AP 是事先生成多维立方体,供以后查询分析用,而 ROLAP 是通过动态的生成 Sql,去做查询关系型数据库,如果没有做性能优化,数据量很大的时候,性能问题就会显得比较突出了。ROLAP 与 MOLAP 比较 ROLAP MOLAP沿用现有的关系数据库的技术 专为 OLAP 所设计 响应速度比 MOLAP 慢; 现有关系型数据库已经对 OLAP 做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL 的 OLAP 扩展(cube,rollup)等,性能有所提高 性能好、响应速度快 数据装载速度快 数据装载速度慢 存储空间耗费小,维数没有限制 需要进行预计算,可
9、能导致数据爆炸,维数有限;无法支持维的动态变化 4借用 RDBMS 存储数据,没有文件大小限制 受操作系统平台中文件大小的限制,难以达到 TB 级(只能 1020G) 可以通过 SQL 实现详细数据与概要数据的存储 缺乏数据模型和数据访问的标准 不支持有关预计算的读写操作 SQL 无法完成部分计算 ?无法完成多行的计算 ?无法完成维之间的计算 支持高性能的决策支持计算 ?复杂的跨维计算 ?多用户的读写操作 ?行级的计算 维护困难 管理简便4. 比较数据挖掘与 OLAP 的差异?OLAP 的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。数据挖掘任务在于聚类(如神经网络聚类) 、分类(如决策树分类) 、预测等。5. 什么是关于数据仓库映射的元数据?数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据 :(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据6. 简述联机分析处理的四个特征?(1)快速性:用户对 OLAP 的快速反应能力有很高的要求。 (2)可分析性:OLAP 系统应能处理任何逻辑分析和统计分析。 (3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP 系统应能及时获得信息,并且管理大容量的信息。