收藏 分享(赏)

考试 数据挖掘 3.0.doc

上传人:wspkg9802 文档编号:9311901 上传时间:2019-08-01 格式:DOC 页数:3 大小:42KB
下载 相关 举报
考试 数据挖掘 3.0.doc_第1页
第1页 / 共3页
考试 数据挖掘 3.0.doc_第2页
第2页 / 共3页
考试 数据挖掘 3.0.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、数据挖掘名词解释:1.数据仓库的作用:一是从各信息源提取决策需要的数据,加工处理后,存储到数据仓库中;二是提供用户的查询和决策分析依据。2.数据仓库的概念:一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据组合。3.数据仓库的特点:主题与面向主题、数据仓库数据的集成性、数据仓库数据的不可更新性、数据仓库数据的时态性。4.数据进入数据仓库的过程:提取、变换、净化、加载和汇总。5.数据挖掘概念:在不同的数据源中的数据,包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统或其他任何

2、组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识得一类深层次的数据分析方法。6.数据挖掘的特点:处理的数据规模十分庞大。由于用户不能形成精确的查询要求,因此需要靠数据挖掘技术来寻找其可能感兴趣的东西。数据挖掘对数据的迅速变化作出快速响应,以提供决策支持信息。数据挖掘既要发现潜在的规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据更新。数据挖掘中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。7.数据挖掘的基本过程:数据准备、挖掘、表述、评价、8.进行数据挖掘的步骤:问题定义、发现信息、制定计划、采取行动、监测效果9.数据挖

3、掘的内容:直销、争取客户、保留客户、交叉销售、趋势分析、欺诈检测10.粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别11.数据分割:把数据分散到各自的小物理单元中去,任何给定的数据单元属于且仅属于一个分割,他们能够独立的处理,分割后的小的数据单元具有比大物理单元更大的灵活性,能够实现重构、索引、顺序扫描、重组、恢复和监控等功能。12.元数据:描述数据仓库内数据的结构和建立方法的数据。13.联机分析:(OLAP):是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的,并对真实反映企业数据特性的信息进行快速、一致、交互的存取,从而获得对数据更深入

4、了解的一类软件技术。14.OLAP 与 OLTP 的区别OLTP OLAP原始数据 导出数据细节数据 综合提炼数据月更新 不可更新面向应用操作 面向分析决策15.数据归约:通过聚集、删除冗余特性或聚类等方法来压缩数据。16.分类:为了理解事物特征并作出预测使用历史数据建立一个分类模型的过程。17.支持度:用于衡量关联规则在整个数据集中的统计重要性。18.置信度:衡量关联规则的可信程度。19. -邻域:给定对象半径 内的区域成为该对象的 -邻域。20.核心对象:如果一个对象的 -邻域至少包含最小数目 MinPts 个对象,则称该对象为核心对象。21.直接密度可达:给定一个对象集合 D,如果 p

5、是在 q 的 -的邻域内,而 q 是一个核心对象,我们说对象 p 从对象 q 除法是直接密度可达的。22.相异度矩阵:存储 n 个对象两两之间的近似性,表现形式是一个 n x n 维的矩阵。填空题1.数据仓库需统一数据那四个方面:2.数据归约常用方法:数据立方体聚集、维归约、数据压缩、数值归约、离散化和概念分层产生。3.聚类分析的数据通常分为:4.划分的聚类层次算法几类:典型的划分方法:k-平均和 k-中心点;大型数据库中的划分方法:基于选择的 k-中心点 CLARANS 方法。5.关联算法分为:简单形式的关联规则的核心算法;频集算法的几种优化方法。6.数据预处理的主要内容:数据的收集和准备、

6、数据清理、数据集成、数据变换和数据归约。7.常见的 OLAP 的多维分析手段: 切片、切块、旋转/ 转轴、钻取8.数据样本距离三类:9.web 挖掘几类:内容挖掘、结构挖掘、用户访问模式挖掘。10 序列模式:给定一个由不同序列组成的集合,其中,每个序列有不同的元素按顺序有序的排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值。序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。简答题1.数据库系统与数据仓库的异同点 62数据库系统 数据仓库系统数据类型 操作型数据 分析型数据数据组织方式面向应用 面向主题视图机制 虚表存储,只存视

7、图结构实视图存储系统开发方法需求驱动 数据驱动面向应用 面向 oltp 应用 面向 olap 应用工具 数据查询、开发 分析和一般查询功能 复杂 简单优化 事物处理和访问 系统的决策与分析索引 有限数量 完善结构自由空间 需要附加数据空间 无更新开销 大 无更新操作 增、删、改频繁 少2.什么是星型模型?基本特点?70特点:非正规化;多维数据集中的每一个维度都与事实表连接(通过主键和外键) ;不存在渐变维度;有冗余数据;查询效率可能会比较高;不用过多考虑正规化因素,设计维护较为简单雪花模式 在实际应用中,随着事实表和维表的增加和变化,星形模式会产生多种衍生模式,包括星系模式、星座模式、二级维表

8、和雪花模式。3.数据预处理方法和模式?答:方法:基于粗糙集的约简方法、基于概念树的数据浓缩方法、信息论思想和一般知识发现、基于统计分析的属性选取方法和遗传算法。4.什么叫联机分析处理?以及体系结构和特性?94定义:是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的,并对真实反映企业数据特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。体系结构:数据库DBMS分析程序用户接口特性:1)快速性:用户对 OLAP 的快速反应能力有很高的要求。系统能在 5 秒内对用户的大部分分析要求作出反应。2)可分析性:OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析。3)多维性:OLAP 的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP 系统应能及时获取信息,并且管理大容量信息。5.粒度对数据仓库的影响?56

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报