收藏 分享(赏)

mablab数据仓库与数据挖掘作业.doc

上传人:无敌 文档编号:42327 上传时间:2018-03-05 格式:DOC 页数:4 大小:68KB
下载 相关 举报
mablab数据仓库与数据挖掘作业.doc_第1页
第1页 / 共4页
mablab数据仓库与数据挖掘作业.doc_第2页
第2页 / 共4页
mablab数据仓库与数据挖掘作业.doc_第3页
第3页 / 共4页
mablab数据仓库与数据挖掘作业.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、 江苏理工学院 数 据 仓 库 与数 据 挖 掘 作业 年级专业 10 软件 1W 学 号 10144107 姓 名 董 鑫 指导老师 杜卓民 一 、名 词解 释: (1)数 据仓 库 答: 数据仓库通常指一个数据库环境, 而不是指一件产品, 它提供用户用于决策 支持的当前和历史数据,这些数据在传统的数据库 中通常不方便得到。 简单地说, 数据仓库就是一个面向主题的、 集成的、 相对稳定的、 反映历史 变化的数据集合,通常用于辅助决策支持。 (2)分类 答: 分类是指把数据样本映射到一个事先定义的类中的学习过程, 即给定一组输 入的属性向量及其对应的类,用基于对归纳的学习算法得出分类。 (3)

2、聚 类分 析 答: 聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程, 聚类之后 的每个类别中任意俩个数据样本之间具有较高的相似度, 而不同类别的数据样本 之间具有较低的相似度。 聚类分析是非监督学习过程, 与分类学习不同, 聚类所 要划分的数据集没有预先定义的类 别属性,即样本没有类标号。 (4)星 型模 式 答: 星型模式是最流行的数据仓库导出数据层的设计结构。 星型模式通过使用一 个包含主题的事实表和多个包含事实的非规范化描述的维度表来执行典型的决 策支持查询。 (5)关 联规 则 答:关联规则可以表示为一个蕴含式 R:XY 其中:X 包含于I,Y 包 含于 I, 并且XY=空

3、集。 它表示如果项集 X 在某一交易 中出现, 则会导致项集 Y 按照某一概率也会在统一交易中出现。X 称为规则的条 件,Y 称为规则的结果。关联规则反映 X 中的 项目出现时,Y 中的项目也跟随出 现的规律。 二 、简 答: (1)数 据仓 库的三 层数 据结构 及各 部 分的 含义 是什么 ? 答: 1、 操作型数据通常存储在遍及组织的各种不同的操作型记录系统中。 2、 调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 3、 导出数据是存储在各个数据集市中的数据。 4、 企业数据模型描述了一个解释组织所需数据的整体轮廓。 5、 元数据是描述其他数据的属性或特征的技术和业务数据。 包

4、括操作型元数据、 企业级数据仓库元数据、数据集市元数据。 (2)画 出分 类的过 程图 ,并对 各部 分进行 简要 说明? 答: 1、获取数据 分类问题所需要的数据可以使图像, 可以是波形, 也可以是各种物理和逻辑数据。 2、预处理 对数据的预处理通 常包括: 去除噪声数据, 对空缺值进行处理; 数据集成或 者变换。 3、分类器设计 分类器设计阶段包含如下 3 个过程: 划分数据集; 分类器构造; 分类 器测试。 4、分类决策 如果在分类器设计阶段所构造的分类器的分类性能被认为是可以接受的, 就 可以利用该分类器对未知类标号的数据样本进行实际的分类决策。 (3) 贝叶斯 网络 的三个 主要 议

5、题是 什么 ,并简 要说 明? 答: 贝叶斯网络的主要功能是进行预测和诊断, 在贝叶斯网络工作之前, 需要对 历史数据进行训练。 所以, 预测、 诊断和训练 构成了贝叶斯网络的三个主要议题。 贝叶斯网络预测是指从起因推测 一个结果的推理,也称为由顶向下的推理。 目的是由原因推导出结果。 已知一定的原因, 利用贝叶斯网络的推理计算, 求出 由原因导致的结果发生的概率。 贝叶斯网络诊断是指从结果推测一个起因的推理,也称为由底向上的推理。 目的是在已知结果时, 找出产生该结果的原因。 已知发生了某些结果, 根据贝叶 斯网络推理计算造成该结果发生的原因和发生的概率。 贝叶斯网络学习是指有先验的贝叶斯网

6、络得到后验的贝叶斯网络的过程。 先 验贝叶斯网络是根据用户的先验知识构造的贝叶斯网络, 后验贝叶斯网络是把先 验贝叶斯网络和数据相结合而得到的贝叶斯网络。 其实质是 用现有数据对先验知 识的修正。 (4) 画出数 据仓 库数据 库的 设计示 意图 ? 答: 计算: 现有 7 个训练样本 X1=1 0,X2=0 1,X3=0 -0.6,X4=0 0.4,X5=0 2.4, X6=0 -1.6,X7=-2 0.4,其对应的 y 分别为 y1=1,y2=1,y3=1,y4= -1,y5= -1,y6= -1, y7= -1, 现有新的样本x=0.4 0.4,使用最近邻分类法对x 进行分类 (即判断y=?) 说明:名词解释,简答一律为打印稿。 计算题为手写,写出详细计算过程。 备注:如X1=1 0 即参照书上作列向量。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报