1、一、选择题(本题共 5 道小题,每小题 2 分,共 10 分)1. 数据仓库是随着时间变化的,下面的描述不正确的是 ( C )。A. 数据仓库随时间的变化不断增加新的数据内容B. 捕捉到的新数据会覆盖原来的快照C. 数据仓库随事件变化不断删去旧的数据内容D. 数据仓库中包含大量的综合数据 ,这些综合数据会随着时间的变化不断地进行重新综合2. 有关数据仓库的开发特点,不正确的描述是( B )。A. 数据仓库使用的需求在开发初期就要明确 B. 数据仓库开发要从数据出发C. 数据仓库的开发是一个不断循环的过程,是启发式的开发D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓
2、库中数据分析和处理更灵活,且没有固定的模式3. 在有关数据仓库测试,下列说法不正确的是 ( D )。A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统测试。B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试。C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。D. 在测试之前没必要制定详细的测试计划。4. 关于基本数据的元数据是指 ( D )。A. 基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的信息B. 基本元数据包括与企业相关的管理方面的数据和信息C. 基本元数据包括日志文件和简历执行处理的时序调度信息
3、D. 基本元数据包括关于装载和更新处理 ,分析处理以及管理方面的信息6. 下面关于数据粒度的描述不正确的是 ( C )。A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量6. 关于 OLAP 的特性,下面正确的是:( D )(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)7. 关于 OLAP
4、和 OLTP 的区别描述,不正确的是: ( C )A. OLAP 主要是关于如何理解聚集的大量不同的数据,它与 OTAP 应用程序不同。B. 与 OLAP 应用程序不同,OLTP 应用程序包含大量相对简单的事务.C. OLAP 的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP 是以数据仓库为基础的,但其最终数据来源与 OLTP 一样均来自底层的数据库系统,两者面对的用户是相同的。8. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A )A. OLAP 事务量大,但事务内容比较简单且重复率高B. OLAP 的最终数据来源与 OLTP 不一样C. OLTP 面对的是决
5、策人员和高层管理人员D. OLTP 以应用为核心,是应用驱动的9. OLAP 技术的核心是( D )。A. 在线性B. 对用户的快速响应C. 互操作性D. 多维分析10某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( A )A. 关联规则 B. 聚类C. 分类 D. 自然语言处理11. 分析型 CRM 的( C )功能可以让 CRM 对所进行的销售活动相关信息进行存储和管理,将客户所发生的交易与互动事件转化为有意义、高获利的销售商机。A. 促销管理 B. 个性化和标准化 C. 客户分析和建模 D. 客户沟通12. 运用关键绩效指标法设计组织关键绩效指
6、标依次经过以下几个步骤( A ) 。A. 确定关键成功领域、确定关键绩效要素、确定关键绩效指标B. 计划目标、实施目标、评价结果、反馈C. 确定目标、比较目标、收集分析数据、系统学习与改进、评价和提高D. 确定长期整体目标、确定短期目标13什么是 KDD? ( A )A. 知识发现 B. 领域知识发现C. 文档知识发现 D. 动态知识发现14. 呼叫中心是一种基于( D )的一种新的综合信息服务系统。A IT 技术 B CTI 技术 C WEB 技术 D CRM 技术15. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C )A. 频繁模式挖掘 B. 分类和预测 C.
7、数据预处理 D. 数据流挖掘16. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B )A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链17. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A )A. 探索性数据分析 B. 建模描述C. 预测建模 D. 寻找模式和规则18. 为数据的总体分布建模,把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析 B. 建模描述C. 预测建模 D. 寻找模式和规则19. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
8、( C )A. 根据内容检索 B. 建模描述C. 预测建模 D. 寻找模式和规则20. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?( A )A. 根据内容检索 B. 建模描述C. 预测建模 D. 寻找模式和规则 21.下面哪种不属于数据预处理的方法? ( D )A. 变量代换 B. 离散化 C. 聚集 D. 估计遗漏值 22.下面哪个不属于数据的属性类型( D )。A. 标称 B. 序数 C. 区间 D. 相异 23. 在上题中,属于定量的属性类型是( C )。A. 标称 B. 序数 C. 区间 D. 相异 24. 只有非零值才重要的二元属性被称作( C
9、)。A. 计数属性 B. 离散属性 C. 非对称的二元属性 D. 对称属性 25. 以下哪种方法不属于特征选择的标准方法 ( D )。A. 嵌入 B. 过滤 C. 包装 D. 抽样 26.下面不属于创建新属性的相关方法的是( C )。A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 27. 下面哪个属于映射数据到新的空间的方法? ( A )A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 28. 企业所建立的预测模型的好坏取决于模型在( A )上的表现效果。A. 得分集 B. 训练集 C. 测试集 D. 评价集29. 客户在经济活动中具有多重身份,下面哪一
10、种不是其身份之一( C )。A. 行为身份 B. 所有权身份 C. 学习身份 D. 决策身份 30. 下列四条描述中,正确的一条是( B )。A. 企业实施数据挖掘,必须要有数据仓库。B. 企业要实施数据挖掘最好的方式是请编外专家。C. 企业购买现成数据挖掘模型的一个先决条件是:该企业的产品、客户、市场定位和所买来的现成模型设计之初的假设相吻合。D. 在建模的时侯,增益最高的模型就是最好的模型。31. 数据挖掘算法以( D )形式来组织数据。A. 行 B. 列 C. 记录 D. 表格32. 企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是( B )。A. 数据越多越好。 B
11、. 尽可能多的适合的数据。 C. 得分集数据是建模集数据的一部分。D. 以上三条都正确。33. K均值类别侦测要求输入的数据类型必须是 ( B )。A. 整型 B. 数值型 C. 字符型 D. 逻辑型34. 在决策树和累计增益图的关系转化过程图中,决策树上某一页节点的增益与累计增益图上的( D )相对应。A. 线段长度 B. 线段斜率 C. 相对应的线段长度 D. 相对应的线段斜率35. 企业为提升每个客户的价值,应实现( C )最优化。A. 促销活动 B. 预算最优化 C. 客户最优化 D. 三者都不是36. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( C )数据挖掘方法。A. 分
12、类 B. 预测 C. 组合或关联法则 D. 聚类37. 企业成功实施数据挖掘, 需要以下( B )知识或技术。A. 预先的规划 B. 对商业文体的理解 C. 综合商业知识和技能 D. 都需要38. 下列哪个不是专门用于可视化时间空间数据的技术( B )。A. 等高线图 B. 饼图 C. 曲面图 D. 矢量场图 39. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是 ( D )。A. 有放回的简单随机抽样 B. 无放回的简单随机抽样 C. 分层抽样 D. 渐进抽样40. 设 X=1,2,3是频繁项集,则可由 X 产生( C )个关联规则。A. 4 B. 5 C. 6 D. 7 4
13、1. 概念分层图是( B )图。A. 无向无环 B. 有向无环 C. 有向有环 D. 无向有环42. 以下哪些算法是分类算法( B ) 。A. DBSCAN B. C4.5 C. K-Mean D. EM 43. 以下哪些分类方法可以较好地避免样本的不平衡问题( A ) 。 A. KNN B. SVM C. Bayes D. 神经网络 44. 以下关于人工神经网络(ANN)的描述错误的有 ( A )。A. 神经网络对训练数据中的噪声非常鲁棒 B. 可以处理冗余特征 C. 训练 ANN 是一个很耗时的过程 D. 至少含有一个隐藏层的多层神经网络45. 通过聚集多个分类器的预测来提高分类准确率的技
14、术称为 ( A ) 。A. 组合(ensemble) B. 聚集(aggregate) C. 合并(combination) D. 投票(voting)46. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B ) 。A. 层次聚类 B. 划分聚类 C. 非互斥聚类 D. 模糊聚类47. 在基本 K 均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。A. 曼哈顿距离 B. 平方欧几里德距离 C. 余弦距离 D. Bregman 散度 48.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
15、A. 边界点 B. 质心 C. 离群点 D. 核心点48. 检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。A. 统计方法 B. 邻近度 C. 密度 D. 聚类技术49. DBSCAN 在最坏情况下的时间复杂度是( B ) 。A. O(m) B. O(m2) C. O(log m) D. O(m*log m)50. 关于 K 均值和 DBSCAN 的比较,以下说法不正确的是( A ) 。A. K 均值丢弃被它识别为噪声的对象,而 DBSCAN 一般聚类所有对象。B. K 均值使用簇的基于原型的概念,而 DBSCAN 使用基于密度的概念。C. K 均值很难处理非球形的簇和
16、不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇。D. K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是 DBSCAN 会合并有重叠的簇。51. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( A )A. 探索性数据分析 B. 建模描述C. 预测建模 D. 寻找模式和规则52.下面哪种不属于数据预处理的方法? ( D )A 变量代换 B 离散化 C 聚集 D 估计遗漏值 二、判断题(本题共 10 道小题,每小题 1 分,共 10 分)( T )1商务智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。( F )2数据分析是整合企业原始数
17、据的第一步,包括数据抽取、转换和装载三个过程。( T )3维是人们观察数据的特定角度,是考虑问题时的一类属性。( F )4独立的数据集市架构的优点是企业内数据一致,不会产生信息孤岛。( T )5. 星型模型的核心是事实表,事实表把各种不同的维表连接起来。( F )6企业风险分析是通过对企业的经营成本进行综合评价,拟定一个企业成本的临界值。( T )7衡量客户忠诚的唯一尺度就是客户是否重复或持久地购买企业的产品或者服务。( T )8在 BI 中,DW 是前提和基础,负责统一数据规则的处理和存储。( F )9客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。( F )10. 平衡计分
18、卡共包括三个层面,分别是财务层面、客户层面、内部业务流程层面。( T )11数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。( F )12在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( F )13OLAP 是用来协助企业对响应事件或事务的日常商务活动进行处理。( T )14数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。( T )15. 数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。( F )16C4.5 决策树算法是国际上最早、最有影响力的决策树算法,( T )17平衡
19、计分卡是从财务、客户、内部运营、学习与成长四个角度,将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。( F )18客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。( F ) 19. 企业绩效管理的目的在于进一步加强成本的事前控制,同时有助于通过盈亏分析,辅助产品科学的报价。20. 数据仓库的数据量越大,其应用价值也越大。F21. 啤酒与尿布的故事是聚类分析的典型实例。F22. 等深分箱法使每个箱子的记录个数相同。T23. 数据仓库“粒度”越细,记录数越少。F24. 数据立方体由 3 维构成,Z 轴表示事实数据。F25. 决策树方法通常用于关联规则挖掘。F26.
20、 ID3 算法是决策树方法的早期代表。T27. C4.5 是一种典型的关联规则挖掘算法。 F28. 回归分析通常用于挖掘关联规则。F29. 人工神经网络特别适合解决多参数大复杂度问题。T30. 概念关系分析是文本挖掘所独有的。F31. 可信度是对关联规则的准确度的衡量。F32. 孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。T33. SQL Server 2005 不提供关联规则挖掘算法。 F34. 决策树方法特别适合于处理数值型数据。F35. 数据仓库的数据为历史数据,从来不需要更新。T36. 数据立方体是广义知识发现的方法和技术之一。F37. 数据立方体的其中一维用于记录事实数据。T3
21、8. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。 ( T )39. 图挖掘技术在社会网络分析中扮演了重要的角色。 ( T )40. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。 ( F )41. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。 ( F )42. 离群点可以是合法的数据对象或者值。 ( T )43. 离散属性总是具有有限个值。 ( F )44. 噪声和伪像是数据错误这一相同表述的两种叫法。 ( F )45. 用于分类的离散化方法之间的根本区别在于是否使用类信息。 ( T
22、)46. 特征提取技术并不依赖于特定的领域。 ( F )47. 可信度是对关联规则的准确度的衡量。F48. 定量属性可以是整数值或者是连续值。 ( T )49. 可视化技术对于分析的数据类型通常不是专用性的。 ( T )50. DSS 主要是基于数据仓库、联机数据分析和数据挖掘技术的应用。 ( F )51. OLAP 技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 ( T )52. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能
23、自动适应商务不断变化的要求。 ( T )53. 数据仓库中间层 OLAP 服务器只能采用关系型 OLAP。 ( F )54数据仓库系统的组成部分包括数据仓库、仓库管理、数据抽取、分析工具等四个部分。( F )55.Web 数据挖掘是通过数据库仲的一些属性来预测另一个属性 ,它在验证用户提出的假设过程中提取信息。 ( F )56. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。 ( F )57. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数) ,以便能够使用模型预测类标记未知的对象类。 ( F )58. 分类和回归都可用于预测,分类的输出是离散
24、的类别值,而回归的输出是连续数值。( T )59. 对于 SVM 分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 ( T )60. Bayes 法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 ( F )三、名词解释(本题共 4 道小题,每小题 5 分,共 20 分)1.商务智能商务智能是融合了先进信息技术与创新管理理念的结合体,集成企业内外数据,进行加工并从中提取能够创造商业价值的知识,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力。2.数据仓库数据仓库是面向主题的、集成的、
25、稳定的、随时间变化的数据集合,用以支持管理决策的过程。3. 数据集成数据集成是在逻辑上或物理上把不相同来源、格式、特点的数据有机地整合,从而为企业提供全面的数据共享。4. OLAP(联机分析处理)OLAP 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。5. 数据挖掘数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取正确的、有用的、未知的、综合的以及人们感兴趣的知识并用于决策支持的过程。6. 孤立点:指数据库中包含的一些与数据的一般行为或
26、模型不一致的异常数据。7. 数据规范化:指将数据按比例缩放(如更换大单位) ,使之落入一个特定的区域(如01)以提高数据挖掘效率的方法。规范化的常用方法有:最大最小规范化、零均值规范化、小数定标规范化。 8. 聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。9. ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。10. 数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析
27、结果。11. 预测型知识:是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。12. 决策树:是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法,可用于对新样本进行分类。13. 遗传算法:是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。14. 知识管理:知识管理就是对一个企业集体的知识与技能的捕获,是为增强组织的绩效而创造、获取和使用知识的过程(知识的创造、储存、分享、应用和更新) 。 15. Web 挖掘:Web 挖掘
28、是从大量 Web 文档的集合 C 中发现隐含的、有用的模式 P 的过程:CP 。四、简答题(本题共 5 道小题,每小题 6 分,共 30 分)1实现商务智能的四个阶段是什么? 答:实现商务智能的四个阶段是数据预处理、建立数据仓库、数据分析及数据展现。 (2 分)数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程; (1 分)数据仓库则是处理海量数据的基础; (1 分)数据分析是体现系统智能的关键,一般采用 OLAP 和 DM 两大技术。 (1 分)数据展现则主要保障系统分析结果的可视化。 (1 分)2. 数据库系统的局限性数据库适于存储高度结构化的日常事务细节数据。决策分析
29、型数据是多维性,分析内容复杂。在决策分析环境中,如果事务处理的细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。3数据仓库与数据集市的区别是什么?数据仓库收集了关于整个组织的
30、主题信息,因此是企业范围的。对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模;(3 分)数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。 (3 分)4. OLAP 的特点快速性 Fast:用户对 OLAP 的快速反应能力有很高的要求。可分析性 Analysis:OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析。多维性 Multidimensional:多维性是 OLAP 的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性 Information:OL
31、AP 系统应能及时获得信息,并且管理大容量信息。5简述 OLAP 的基本操作有哪些?答:OLAP 的基本操作有:1. 切片和切块(Slice and Dice):在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。 (2 分)2. 钻取 (Drill) :钻取包含向下钻取(Drill-down) 和向上钻取(Drill-up)/上卷(Roll-up) 操作,钻取的深度与维所划分的层次相对应。 (2 分)3. 旋转(Rotate)/旋转(Pivot):通过旋转可以得到不同视角的数据。 (2 分)6简述 OLAP 与数据挖掘的区别和联系。答:OLAP 侧重于与用户的交互、快速的响
32、应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。 (3 分)OLAP 的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP 分析的深度,可以发现 OLAP 所不能发现的更为复杂、细致的信息。 (3 分)7何谓数据挖掘?它有哪些方面的功能?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差
33、分析等。 (3 分)8在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。9简述数据预处理方法和内容。数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲
34、突问题和冗余问题等。数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。10. 数据挖掘的六种常用算法和技术分别是什么?聚类分析;分类分析;关联分析;序列模式挖掘;回归分析;时间序列分析。11. 数据挖掘中的数据需要采用哪些格式?数据挖掘中的数据需要采用以下格式: 所有数据应该在一个表格/数据库视图中 每一行对应于与业务问题相关的一个案例 忽略具有单一值/几乎单一值的列 忽略所有行的值都不同的列 删除所有同义列 对于预测模型,目标列必须
35、是可识别的12简述 K-近邻分类法的基本思想。答:基本思想:K近邻分类是基于类比学习的,每个样本代表 d 维空间的一个点。 (3 分)当给定一个未知样本时,K-近邻分类法将搜索样本空间,找出最接近未知样本的 K 个训练样本,这 K 个训练样本是未知样本的 K 个“近邻” 。 (3 分)13关联规则挖掘能发现什么知识?简述其挖掘的基本步骤。答:关联规则挖掘有助于发现交易数据库中不同商品之间的联系,找出顾客购买行为模式。(2 分)关联规则挖掘可以分解为两个步骤:首先找出交易项目中满足最小支持度(minSupp)的项集(称其为频繁项集) ;(2 分)然后由频繁项集生成关联规则,对于频繁项集 A,若
36、BA,且置信度 confidence(BA-B)不小于最小置信度 minConf,则 BA-B 构成关联规则。 ( 2 分)14遗传算法与传统寻优算法相比有什么特点?遗传算法为群体搜索,有利于寻找到全局最优解;遗传算法采用高效有方向的随机搜索,搜索效率高;遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好;遗传算法具有隐含并行性,具有更高的运行效率。15什么是决策树?如何用决策树进行分类?决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策
37、树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。16简述 K-平均算法的输入、输出及聚类过程( 流程)。输入:簇的数目 k 和包含 n 个对象的数据集。输出:k 个簇,使平方误差准则最小。步骤:任意选择 k 个对象作为初始的簇中心;计算其它对象与这 k 个中心的距离,然后把每个对象归入离它“最近”
38、的簇;计算各簇中对象的平均值,然后重新选择簇中心(离平均值“最近”的对象值) ;重复第 2 第 3 步直到簇中心不再变化为止。17简述构造智能 CRM 系统的完整步骤。答:构建一个完整的智能 CRM 系统的几个步骤:1整合客户信息资源:对于那些以前没有应用过任何 CRM 系统的企业来说,首先需要把孤立的业务系统整合到一个统一的平台之下,解决“信息孤岛”。 而对于己有 CRM 系统的企业,则需要建立一个企业信息门户,使客户和企业能在一个统一的界面下进行数据和信息交换,从而保证客户数据的一致性。 (2 分)2. 建立客户数据仓库:规划数据仓库,以企业的业务模型为基础,确定需要建立能够描述主要业务主
39、题的数据模型;设计数据仓库,根据逻辑模型和性能要求进行物理模型的设计,制定数据存储策略以及各种商业规则等;(2 分)3构造数据分析模型:根据企业需要分析的对象和目标,构造有针对性的分析模型。 (1分)4建立客户知识管理系统:建立一个动态的客户知识库以及制定客户知识的分发规则和保存机制。 (1 分)18何谓数据仓库?为什么要建立数据仓库?数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性) 、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。 (3 分)建立数据仓库的目的有 3 个:一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统
40、事务数据库更快的大规模决策分析的响应速度。二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。 (3 分)20简述数据仓库设计的三级模型及其基本内容。概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。 (2 分)逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。 (2 分)物理数据模型
41、设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有: I/O 存取时间、空间利用率和维护代价等。提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。 (2 分)21何谓聚类?它与分类有什么异同?聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。 (3 分)聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,
42、属于观察式学习,分类则属于有指导的学习,是示例式学习。 (3 分)22何谓文本挖掘?它与信息检索有什么关系(异同) 。文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它与信息检索之间有以下几方面的区别:(1 分)1 方法论不同:信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户无法预知的。2 着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理解文本的内容和结构。3 目的不同:信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。4 评价方法不同:
43、信息检索用查准率和查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。5 使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。 (5 分)23遗传算法与传统寻优算法相比有什么特点?遗传算法为群体搜索,有利于寻找到全局最优解;遗传算法采用高效有方向的随机搜索,搜索效率高;遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;遗传算法使用适应值信息评
44、估个体,不需要导数或其他辅助信息,运算速度快,适应性好;遗传算法具有隐含并行性,具有更高的运行效率。 (6 分)24. 商务智能应用趋势更成熟的数据分析和展现技术;从战略型的 BI 到操作型或者实时型的 BI;关注绩效、关注价值、关注数据质量。25. 商务智能发展的特点实时;标准化;嵌入式商务智能;移动商务智能;大众化趋势;供应商的动向;易用性。26商务智能与知识管理的区别:内涵不同;知识的管理过程和技术不同;关注的只是类型不同;面向的用户不同。27. Web 日志挖掘的应用获取用户访问模式信息,理解用户的意图和行为分析用户的存取模式,为用户提供个性化的服务确定网站的潜在客户群,合理制订网络广
45、告策略等改进 Web 站点的结构,使网站点随时间、用户需求的变化而不断调整对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等利用关联规则确定相关 Web 查询(查询修正)五、计算题(本题共 2 道小题,每小题 10 分,共 20 分)1. T)X,(321的协方差矩阵2051A的特征值和特征向量分别为:)0,94.8.0e83.5T1, )1,(e.2T,,(7,求 X 的主成分,计算其贡献率。解:(1)X 的主成分是: 21T94.038.eYX,22, 21T33e(6 分)(2)第 1 主成分的贡献率为%730.1.5.8第 1,2 主成分的贡献率为98.23(
46、4 分)2.对于贷款申请的决策树,(1)请从下图的决策树中提取分类规则。是 否 是否是否收入 40000工作时间5年 高负债低风险 高风险 低风险 高风险(2)根据决策树判断如下数据的风险分类。序号 工作时间 收入 高负债 风险分类1 3 50000 否 ?2 10 30000 否 ?3 6 100000 是 ?解:(1)请从下图的决策树中提取分类规则。1)当收入小于等于 40000 元,如果工作时间大于 5 年的为低风险;2)当收入小于等于 40000 元,工作时间小于等于 5 年的为高风险;3)当收入大于 40000 元,没有高负债的为低风险;4)当收入大于 40000 元,具有高负债的为
47、高风险; (6 分)(2)根据决策树判断如下数据的风险分类。 (4 分)序号 工作时间 收入 高负债 风险分类1 3 50000 否 低风险2 10 30000 否 低风险3 6 100000 是 高风险3、给定如下要进行聚类的元组:2,4,10,12,3,20 ,30,11,25 ,假设分为 2 类,即 K1=2,初始时用前两个数值作为类的均值:m=2 和 m=4。(1)应用 K-均值聚类法写出聚类的详细过程(利用欧几里德距离进行计算) 。(2)应用 K-近邻分类法计算元组 x=16 属于哪一类?设距离最近的元组为 3 个,即K2=3。解:(1)m1 m2 K1 K22 4 2,3 4,10
48、,12,20,30,11,252.5 16 2,3,4 10,12,20,30,11,253 18 2,3,4,10 12,20,30,11,254.75 19.6 2,3,4,10,11,12 20,30,257 25 2,3,4,10,11,12 20,30,25由于均值不再变化,所以均值已经收敛了。该问题的答案为: K1=2,3,4,10,11,12 和 K2=20,30,25 (5 分)(2)因为D(2,16)=14; D(4,16)=12; D(10,16)=6; D(12,16)=4; D(3,16)=13;D(20,16)= 4; D(30,16)=14; D(11,16)=5; D(25,16)=9; (4 分)距离 16 最近的 3 个元组为 11,12,20,其中,11,12 属于 K1,20 属于 K2,所以:X=16属于 K1 类。 (5 分)六、论述题(共 10 分)1、试举例一个商务智能的应用案例,并论述商务智能能