1、第一章一填空1数据挖掘和知识发现的三大主要技术为:数据库、统计学、机器学习2数据挖掘获得知识的表现形式主要有 6 种:规则、决策树、知识基网络权值、公式、案例3规则是由前提条件、结论两部分组成4基于案例推理 CBR 的基础是案例库5知识发现的基本步骤:数据选择、处理、转换、数据挖掘、解释与评价。数据挖掘是知识发现的关键步骤6数据挖掘的核心技术是:人工智能、机器学、统计学7.目前数据挖掘在医学领域的应用集中在疾病辅助诊断、药物开发、医院信息系统、遗传学等方面二名解1数据挖掘 DM:在数据中正规的发现有效的、新颖的、潜在有用的、并且最终可以被读懂的模式的过程2案例推理 CBR:当要解决一个新问题时
2、, CBR 利用相似性检索技术到案例库中搜索与新问题相似的案例,再经过对就案例的修改来解决新问题三简答1数据挖掘的特点a 挖掘对象是超大型的 DB,b 发现隐含的知识,c 可以用于增进人类认知的知识,d 不是手工完成的2案例是解决新问题的一种知识,案例知识表示为三元组a 问题描述:对求解的问题及周围环境的所有特征的描述,b 解描述:对问题求解方案的描述,c 效果描述:描述解决方案后的结果情况,是失败还是成功3医学数据挖掘存在的关键问题a 数据预处理,b 信息融合技术,c 快速的鲁棒的书库挖掘算法,d 提供知识的准确性和安全性4数据挖掘在遗传学方面的应用遗传学的研究表明,遗传疾病的发生是由基因决
3、定的,基因数据库搜索技术在基因研究上做出了很多重大发现,其工作主要包括:a 从各种生物体的大量 DNA 序列中定位出具有某种功能的基因,b 在基因 DB 中搜索与某种具有高阶结构或功能的蛋白质相似的高阶结构序列第二章一填空1DM 的对象分为:关系型 DB、数据仓库、文本 DB、复杂类型 DB2从用户角度来看,数据仓库的基本组成包括:数据源、数据存储、应用工具、可视化用户界面3数据仓库是最流行的数据模型是多维数据模型,多维数据模型将数据看作是数据立方体的形式,数据立方体是由维和事实来定义4常用的多维数据模式包括:星型模式、雪花模式、事实星座模式。星型模式是由事实表和维表构成5WEB 分为:内容挖
4、掘、结构挖掘、使用挖掘二名解数据仓库:一个面向主题的、集成的、时变的、非易失的数据集合,用以支持管理活动的决策过程数据立方体:指以两维或多维来描述或者分类数据。这里的维类似于关系数据结构中的属性或者字段数据挖掘:指同万维网相关数据的挖掘三简答人们使用文本 DB 的三个主要目的a 用户需要便利的获得全文文本,即文献检索,b 用户应用此类数据库确定需要阅读的相关资料,c 用户希望从文本数据库中获得信息的特异性片段,即从相关资料的特异性部分获得某个特意问题的答案2WEB 数据库中的数据可以分为五个类别a 网页的内容,b 网页间的结构,c 网页内的结构,d 描述用户如何使用网页的数据,e用户的人口统计
5、学和注册信息第三章一.填空题1.确定商业目标,认清数据挖掘的目的是 DM 的第一步2.影响 DM 结果质量的两个因素是: 所采用 DM 技术的有效性(模型的选择), 用于挖掘的数据的质量和数量3.数据质量的含义包含四个方面:数据的正确性,数据的一致性,数据的完整性,数据的可靠性4.数据清洗的技术:空值处理, 噪音数据,不一致数据等处理技术5.数据挖掘模型按功能可分为:预测模型,描述模型.其中前者包括: 分类模型,回归模型,时间序列模型;后者包括:聚类模型,关联模型,序列模型6.模型准确性的测试分为三类:简单验证,交叉验证,自举法二.名词解释1.静态数据:开展业务活动所需要的基本数据 (动态数据
6、的基础,保持数据的唯一性)动态数据:指每笔业务发生时产生的事务处理信息2.数据归纳:其目的是建立用于挖掘的合适的数据集合 ,缩小处理范围,是在数据选择的基础上对挖掘数据的进一步约简,又叫数据缩减或数据收缩三:简答1.CRISP-DM 模型的六个阶段理解问题,理解数据,准备数据,建立模型,方案评估,方案实施2.数据准备包含的方面a 从多个数据源中整合数据挖掘所需要的数据,保证数据的综合性,易用性,数据的质量和数据的时效性;b 如何从现有数据中衍生出所需要的指标3.在数据生成,处理和管理的许多阶段都会引入错误,主要包括a 数据输入和获得过程的错误;b 数据集成所表现出来的错误(a 度量纲问题 b
7、命名冲突问题 c 数据精度问题 d 汇总问题);c 数据传输过程所引入的错误4.通过历史数据预测未来,它的的有效性的前提条件隐藏着三个假设为a 过去是将来的好的预测器;b 数据是可利用的;c 数据包含我们想要的预测5.预测模型和描述模型的区别数据挖掘模型按照功能分为预测模型和描述模型.在预测模型中,用来预测的称为独立变量,要预测的称为相关变量或目标变量.预测模型包括分类模型,回归模型和时间序列模型;描述模型包括聚类模型,关联模型和序列模型.前者有时又称为有监督学习,可直接用来检测模型的准确性,一般在建立这些模型时,使用一部分数据作为样本,用另一部分数据来检验,校正模型;后者又称为无监督学习 ,
8、因为在模型建立前结果是未知的,模型的产生不受任何监督第四章一.填空1关联分析就是用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的联系可以利用关联规则或者频繁项集的形式表示2.关联规则算法通常采用的策略是把关联规则挖掘任务分解为两步:找出所有频繁的项集; 由频繁项集产生强关联规则3.Apriori 算法的两大缺点:可能产生大量的候选集,可能需要重复扫描数据库4.Apriori 算法优化的四种思路: 减少 DB 描述的次数,对挖掘的数据集中进行扫描,利用修剪技术来减少候选集 Ck 的大小 ,并行数据挖掘5.同层关联规则可以采用的两种支持策略:统一的最小支持度,递减的最小支持度第五章 聚类分析
9、一,填空.1.大多数聚类算法采用的两种具有代表性的数据结构:数据矩阵,相异度矩阵.2.基于划分的聚类分析方法有,K-平均算法,K- 中心点算法,CLAYANS 算法.3.孤立点挖掘的方法主要有:基于统计的方法 ,基于距离的方法,基于偏离的方法.4.两种基于偏离的孤立点的检测技术是:序列异常技术,olap 数据立方体技术.二,名词解释1.聚类分析,是一个将数据集划分为若干组成类的过程.并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据是不相似的.2.相异度矩阵,是一个对象-对象结构 ,它存放所有 n 个对象两两之间所形成的差异性(相似性)3.孤立点,与其他数据有显著区别的数据对象的集合
10、。4,孤立点挖掘,三,简答1.K-平均算法的操作流程:给定 K 后,1,从数据对象中任意选择 K 个对象作为初始聚类中心。 2,计算每个聚类的平均值,用该平均值代表相应的聚类中心。3,计算每个对象与这个中心的距离,并根据最小距离重新对相应对象进行划分,将它分配到与它最近的聚类中。4,循环。5,直到每个聚类不在发生变化为止。2.孤立点产生的原因:1,度量或执行错误导致。2.固有的数据变异的结果。3.孤立点挖掘问题可以看成是 2 个问题;1,定义在数据集中的什么是不一致的数据。2,找到一个能够挖掘出所定义的孤立点的有效方法。第六章 决策树1.决策树的基本组成部分:决策节点 分枝 叶子2.在决策树中
11、最上面的节点称为 根节点 是整个决策树的开始,每个分枝是一个新的决策点或者是树的叶子,每个叶节点 代表一种可能的分类的结果。3.Hunt 提出的概念学习系统 是一种早期的决策树学习方法,它是许多决策树算法的基础4.一个完整的决策树构造过程应包含决策树的创建和决策树的剪枝5.决策树修剪的 3 种方法 前修剪方法,后修剪方法,混合的修剪方法第八章 人工神经网络一、填空1、大多数生物神经元由细胞体、轴突、树突和突触组成2、人工神经网络是对生理神经元的模拟,有向弧则是轴突突触树突对的模拟,有向弧的权值表示两处理单元间相互作用的强弱3、在结构上,人工神经网络可以分为:输入层、隐蔽层、输出层,每一层可以包
12、含若干个节点(神经元) ,层与层之间的节点相互联系4、BP 算法包括信息的正向传递和误差的反向传播5、网络按照连接权值可以有三种训练方法:死记式学习、有监督学习(有导师学习) 、无监督学习(无导师学习)二、名词解释1、人工神经网络是一个对人脑的某种程度上的抽象、简化和模拟的数学模型,它能用电子线路来实现或用计算机来模拟人的自然智能,从人脑的生理结构出发来研究人的智能行为,模拟人脑对信息进行处理的功能三、简答1、人工神经网络历史发展的四个阶段a 产生时期:M-P 模型;b 高潮时期:感知机;c 低潮时期;d 热潮时期:BP 网络2、人工神经网络的基本功能a 联想记忆功能 b 非线性映射能力 c
13、分类、识别与图像处理功能 d 控制与优化计算功能 e知识处理功能3、人工神经网络的工作过程a 学习阶段:对网络进行训练,主要是调整网络神经元的连接权值和连接方式b 工作阶段:训练好的网络即可用于实际工作,此时网络的连接权值和连接方式固定不变,工作过程表现为输入数据在状态空间的映射和变化过程,神经网络最终的稳定状态即是工作输出4、BP 算法基本思想BP 算法的学习过程由信号的正向传播与误差的反向传播的两个过程组成a 正向传播:输入样本输入层各隐层输出层;若输出层实际输出与期望输出不同,则转入 bb 误差的反向传播:输出误差(某种形式)隐层输入层;通过将输出误差的反传分摊给各层所有单元,从而获得各
14、层单元的误差信号,修改各神经元的权值5、BP 神经网络的建模步骤a、确定训练样本集:训练样本含量适宜 b、样本的归一化处理 c、BP 神经网络结构设计:输入层、隐含层、输出层设计 d、BP 神经网络权值初始化 e、利用 BP 算法学习建模第十章 医学决策支持系统一、填空1、常见的狭义医学决策支持系统包括:医疗专家系统和临床决策支持系统两种2、医院信息系统(HIS)分为医院管理信息系统(HMIS)和临床信息系统(CIS)3、数据仓库的逻辑数据模型是多维结构的数据视图,也称多维数据模型,其最流行的表现形式是数据立方体4、多维数据模型常用的有:星型模型、雪花模型、星网模型,其中星型模型是最常见的多维
15、数据模型,星型模型由事实表和唯表构成5、多维数据分析包括切片、切块、旋转、上钻、下钻等五个基本操作6、信息系统经历了电子数据处理系统、管理信息系统和决策支持系统三个阶段二、名解1、决策支持系统:指为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,并通过调用各种数据分析工具提取决策信息,帮助决策者提问决策水平和质量,解决了由计算机自动组织和协调以数值计算为主体的数据模型和仿真模型的运行,以及 DB 中大量数据的存取和处理,从而达到更高层次的辅助决策能力2、医学决策支持系统:通常我们从广义和狭义两个角度来定义广义:指在医学信息系统基础上发展起来的,以支持各级医疗卫生人员辅助决策为的的计算机
16、信息系统狭义:一种通过计算机进行模型计算,知识推理以及从医学数据中获得诊断信息和诊断的知识以支持医学诊断辅助决策为目的的计算机信息系统3、数据仓库:值一个面向主题的、集成的、时变的、非易失的数据集合,用以支持管理获得的决策过程4、OLAP(联机分析处理):是分析人员,管理人员和执行人员能够从多种角度对从原始数据中转化出来的,能够真正为用户所理解的并真实反映企业多维特性的信息进行快速、一致、交互的存取,从而获得数据更深入了解的一类软件技术三、简答1、DSS 发展的四个阶段a、以模型库为核心的 DSS;b、模型库与知识推理结合的智能 DSS;c、DW+OLAP+DM的新型 DSS;d、网络环境的综
17、合 DSS2、医院管理决策支持系统的分析功能a、医疗质量决策分析;b 医疗病源决策分析;c、业务成本决策分析;d、财务与效益决策分析;e、医保决策分析与监控3、数据仓库结构DW 包括的几类数据:当前基本数据,轻度综合数据,高度综合数据及原数据当前基本数据:最近时期的业务数据,是 DW 用户最感兴趣的部分,数据最大,随时间的推动由 DW 的时间控制机制转为历史基本数据,一般存储于磁盘与介质轻度综合数据:从当前数据中提取出来的用于提供决策分析的数据设计这层数据结构会遇到综合处理数据的时间段选取、综合数据包含哪些属性和内容等问题高度综合数据:是准决策数据,十分精炼原数据:是关于数据的数据,它是描述数据仓库内数据的结构和建立方法的处理