数据仓库习题集.doc-资源下载-道客多多-道者的世界，分享的人生！

数据仓库习题集.doc

1、一、选择填空.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中，直接数据挖掘包括（）A 分类 B 关联 C 估值 D 预言数据仓库的数据 ETL 过程中，ETL 软件的主要功能包括（）A 数据抽取 B 数据转换 C 数据加载 D 数据稽核数据分类的评价准则包括（ ABCD ）A 精确度 B 查全率和查准

2、率 C F-Measure D 几何均值层次聚类方法包括（ BC ）A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法贝叶斯网络由两部分组成，分别是（ A D ）A 网络结构 B 先验概率 C 后验概率 D 条件概率表置信度(confidence)是衡量兴趣度度量（ A ）的指标。A、简洁性B、确定性C.、实用性D、新颖性关于 OLAP 和 OLTP 的区别描述,不正确的是: (C)A. OLAP 主要是关于如何理解聚集的大量不同的数据.它与 OTAP 应用程序不同.B. 与 OLAP 应用程序不同,OLTP 应用程序包含大量相对简单的事务.C. OLAP

3、的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP 是以数据仓库为基础的,但其最终数据来源与 OLTP 一样均来自底层的数据库系统,两者面对的用户是相同的简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（ B ）A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C)A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B)A. 探索性数据分析 B. 建模描述C. 预测建模 D.

4、寻找模式和规则6.在数据挖掘的分析方法中，直接数据挖掘包括（）A 分类 B 关联 C 估值 D 预言7.数据仓库的数据 ETL 过程中，ETL 软件的主要功能包括（）A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8.数据分类的评价准则包括（ ABCD ）A 精确度 B 查全率和查准率 C F-Measure D 几何均值9.层次聚类方法包括（ BC ）A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法10.贝叶斯网络由两部分组成，分别是（ A D ）A 网络结构 B 先验概率 C 后验概率 D 条件概率表二、判断题1. 数据挖掘的主要任务是从数据

5、中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。 (对)2. 数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。（对）3. 图挖掘技术在社会网络分析中扮演了重要的角色。（对）4. 模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；模型则对变量变化空间的一个有限区域做出描述。（错）5. 寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。（错）6. 离群点可以是合法的数据对象或者值。（对）7. 离散属性总是具有有限个值。（错）8. 噪声和伪像是数据错误这一相同表述的两种叫法。（错）9. 用于分类的离散化方法之间的根本区别在于

6、是否使用类信息。（对）10. 特征提取技术并不依赖于特定的领域。（错）11. 序列数据没有时间戳。（对）12. 定量属性可以是整数值或者是连续值。（对）13. 可视化技术对于分析的数据类型通常不是专用性的。（错）14. DSS 主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。（对）15. OLAP 技术侧重于把数据库中的数据进行分析、转换成辅助决策信息，是继数据库技术发展之后迅猛发展起来的一种新技术。（对）16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于：后者把结构强加于商务之上，一旦系统设计完毕，其程序和规则不会轻易改变；而前者则是一个学习型系统，能自动适

7、应商务不断变化的要求。（对）17. 数据仓库中间层 OLAP 服务器只能采用关系型 OLAP （错）18数据仓库系统的组成部分包括数据仓库，仓库管理，数据抽取，分析工具等四个部分. (错)19. Web 数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. （错）21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。（错）22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数（对）。23. 先验原理可以表述为：如果一个项集是频繁的，那包含它的所有项集也是频繁的。（错24. 如果规则不满足置信度阈值，则形如的规则一定也不满足

8、置信度阈值，其中是 X 的子集。（对）25. 具有较高的支持度的项集具有较高的置信度。（错）26. 聚类（clustering）是这样的过程：它找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。（错）27. 分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。(对)28. 对于 SVM 分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。（对）29. Bayes 法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。 (错)30.分类模型的误差大

9、致分为两种：训练误差（training error）和泛化误差（generalization error）. (对)31. 在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。（错）32. SVM 是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimal margin classifier） (错)33. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（错）34. 聚类分析可以看作是一种非监督的分类。（对）35. K 均值是一种产生划分聚类的基于密度的聚类算法，

10、簇的个数由算法自动地确定。（错36. 给定由两次运行 K 均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。（错）37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。（对）38. 如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点。（对）39. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（错）40. DBSCAN 是相对抗噪声的，并且能够处理任意形状和大小的簇。（对）三、计算题1.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定 supmin=40%，conf min=4

11、0%，使用 Apriori 算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。（15 分）事务项目事务项目T1T2 T3面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱T4T5啤酒、面包啤酒、牛奶解：（1）由 I=面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生 1-候选 C1，计算其支持度，取出支持度小于 supmin的项集，形成 1-频繁集 L1，如下表所示：项集 C1 支持度项集 L1 支持度面包花生酱牛奶啤酒 4/53/52/52/5面包花生酱牛奶啤酒 4/53/52/52/5(2)组合连接 L1中的各项目，产生 2-候选集 C2，计算其支持度，取出

12、支持度小于 supmin的项集，形成 2-频繁集 L2，如下表所示：项集 C2 支持度项集 L2 支持度面包、花生酱 3/5 面包、花生酱 3/5至此，所有频繁集都被找到，算法结束，所以，confidence（面包花生酱）=（4/5）/（3/5）=4/3 conf minconfidence（花生酱面包）=（3/5）/（4/5）=3/4 conf min所以，关联规则面包花生酱、花生酱面包均是强关联规则。2.给定以下数据集（2 ，4，10，12，15，3，21），进行 K-Means 聚类，设定聚类数为 2 个，相似度按照欧式距离计算。（15 分）解：（1）从数据集 X 中随机地选择

13、 k 个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，由题可知 k=2，则可设 m1=2，m2=4：（2）对于 X 中的任意数据样本 xm（10=0=P(X|senior)P(senior)；所以：朴素贝叶斯分类器将 X 分到 junior 类。解二：设元组的各属性之间不独立，其联合概率不能写成份量相乘的形式。所以已知：X=(department=system,age=2630,salary=46K50K)，元组总数为：30+40+40+20+5+3+3+10+4+4+6=165。先验概率：当 status=senior 时，元组总数为：30+5+3+10+4=52，P(senior

14、)=52/165=0.32；当 status=junior 时，元组总数为： 40+40+20+3+4+6=113 ，P(junior)=113/165=0.68；因为 status=senior 状态没有对应的 age=2630 区间，所以：P(X|senior)=0；因为 status=junior 状态对应的 partment=systems、age=2630 区间的总元组数为：3，所以：P(X|junior)=3/113；因为：P(X|junior)P(junior)=3/113113/1650.0180=P(X|senior)P(senior)；所以：朴素贝叶斯分类器

15、将 X 分到 junior 类。四、简答论述题三种规范化方法：（1）最小最大规范化（min-max 规范化）：对原始数据进行线性变换，将原始数据映射到一个指定的区间。（2）z-score 规范化（零均值规范化）：将某组数据的值基于它的均值和标准差规范化，是其规范化后的均值为 0 方差为 1。,其中是均值，是标准差（3）小数定标规范化：通过移动属性 A 的小数点位置进行规范化。k-means 聚类算法基本原理：将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据划分为不同的类别，使得评价聚集类性能的准则函数达到最优，从而使生成的每个聚集类的紧凑，类间独立

16、。操作步骤：输入：数据集,其中的数据样本只包含描述属性，不包含类别属性。聚类个数 K输出：（1）从数据集 X 中随机地选择 k 个数据样本作为聚类的出示代表点，每一个代表点表示一个类别（2）对于 X 中的任意数据样本 xm（1xmtotal），计算它与 k 个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到 k 个均值代表点（4）对于 X 中的任意数据样本 xm（1xmtotal），计算它与 k 个均值代表点的距离，并且将它划分到距离最近的均值代表点所表示的类

17、别中（5）重复 3.4，直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优1、数据仓库的组成？P2数据仓库数据库，数据抽取工具，元数据，访问工具，数据集市，数据仓库管理，信息发布系统2、数据挖掘技术对聚类分析的要求有哪几个方面？P131可伸缩性；处理不同类型属性的能力；发现任意形状聚类的能力；减小对先验知识和用户自定义参数的依赖性；处理噪声数据的能力；可解释性和实用性3、数据仓库在存储和管理方面的特点与关键技术？P7数据仓库面对的是大量数据的存储与管理并行处理针对决策支持查询的优化支持多维分析的查询模式4、常见的聚类算法可以分为几类？P132基于划分的聚类算法，基于层次的聚类算法，

18、基于密度的聚类算法，基于网格的聚类算法，基于模型的聚类算法等。5、一个典型的数据仓库系统的组成？P12数据源、数据存储与管理、OLAP 服务器、前端工具与应用6、数据仓库常见的存储优化方法？P71表的归并与簇文件；反向规范化，引入冗余；表的物理分割。7、数据仓库发展演变的 5 个阶段？P20以报表为主以分析为主以预测模型为主以运行向导为主以实时数据仓库、自动决策应用为主8、 ID3 算法主要存在的缺点？P116（1）ID3 算法在选择根结点和各内部结点中的分枝属性时，使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。（2

19、）ID3 算法只能对描述属性为离散型属性的数据集构造决策树。9、简述数据仓库 ETL 软件的主要功能和对产生数据的目标要求。P30ETL 软件的主要功能:数据的抽取，数据的转换，数据的加载对产生数据的目标要求：详细的、历史的、规范化的、可理解的、即时的、质量可控制的10、简述分类器设计阶段包含的 3 个过程。划分数据集，分类器构造，分类器测试11、什么是数据清洗？数据清洗是一种使用模式识别和其他技术，在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。13、利用信息包图设计数据仓库概念模型需要确定的三方面内容。P57确定指标，确定维度，确定类别14、K-近邻分类方法的操作步骤（包

20、括算法的输入和输出）。P12815、什么是技术元数据，主要包含的内容？P29技术元数据是描述关于数据仓库技术细节的数据，应用于开发、管理和维护 DW，包含： DW 结构的描述,如 DW 的模式、视图、维、层次结构和导出数据的定义，数据集市的位置和内容等业务系统、DW 和数据集市的体系结构和模式汇总算法。包括度量和维定义算法，数据粒度、主题领域、聚合、汇总和预定义的查询和报告。由操作型业务环境到数据仓库业务环境的映射。包括源数据和他们的内容、数据分割、数据提取、清洗、转换规则和数据刷新规则及安全（用户授权和存取控制）16、业务元数据主要包含的内容？P29业务元数据：从业务角度描述了 DW

21、中的数据，提供了介于使用者和实际系统之间的语义层，主要包括：使用者的业务属于所表达的数据模型、对象名和属性名访问数据的原则和数据的来源系统提供的分析方法及公式和报表的信息。18、数据从集结区加载到数据仓库中的主要方法？P36 SQL 命令（如 Insert 或 Update）由 DW 供应商或第三方提供专门的加载工具由 DW 管理员编写自定义程序19、多维数据模型中的基本概念：维，维类别，维属性，粒度 P37 维：人们观察数据的特定角度，是考虑问题的一类属性，如时间维或产品维维类别：也称维分层。即同一维度还可以存在细节程度不同的各个类别属性（如时间维包括年、季度、月等）维属性：

22、是维的一个取值，是数据线在某维中位置的描述。粒度：DW 中数据综合程度高低的一个衡量。粒度低，细节程度高，回答查询的种类多 20、Apriori 算法的基本操作步骤 P93 Apriori 使用一种称作逐层搜索的迭代方法，K 项集用于探索 K+1 项集。该方法是基于候选的策略，降低候选数 Apriori 剪枝原则：若任何项集是非频繁的，则其超集必然是非频繁的（不用产生和测试超集）该原则基于以下支持度的特性: 项集的支持度不会超过其子集支持度的反单调特性（anti-monotone）：如果一个集合不能通过测试，则它的所有超集也都不能通过相同的测试。令 k=1 产生长度为 1 的频繁项集

23、循环，直到无新的频繁项集产生从长度为 k 的频繁项集产生长度为 k+1 的候选频繁项集连接步：项集的各项排序，前 k-1 个项相同若候选频繁子集包含长度为 k 的非频繁子集，则剪枝剪枝步：利用支持度属性原则扫描数据库，计算每个候选频繁集的支持度删除非频繁项, 保留频繁项定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。解答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade po

24、int aversge)的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生，而具有低 GPA 的学生的 65%不是。关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效)()(:, YsXYX的、并且

25、通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。数据延边分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析效率比较：Apriori 算法的计算过程必须对数据库作多次扫描，而 FP-增长算法在构造过程中只需扫描一次数据库，再加上初始时为确定支持度递减排序的一次扫描，共计只需两次扫描。由于在 Apriori 算法中的自身连接过程产生候选项集，候选项集产生的计算代价非常高，而 FP-增长算法不需产生任何候选项。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？