1、决策支持系统课前导入第一章 决策支持系统概述第一节 决策支持系统的形成和发展决策支持系统(DSS)是 20 世纪 70 年代初由美国的 Scott Morton 在管理决策系统中首先提出,于 20 世纪 80 年代迅速发展起来。 管理信息系统 管理科学/运筹学 决策支持系统管理科学与运筹学是运用模型辅助决策,体现在单模型辅助决策上,这样以来, 对于多模型辅助决策 问题,在决策支持系 统 出现之前要靠人来实现模型间的联合和协调。决策支持系统的出现要解决由计算机自动组织和协调多模型的运行以及数据库中大量数据的存取及处理,达到更高层次的辅助决策能力。决策支持系统具有以下 6 个特性:用定量方式辅助决
2、策,而不是代替决策使用大量的数据和多个模型支持决策制定过程为多个管理 层次上的用 户提供决策支持能支持相互独立的决策和相互依赖的决策用于半结构化决策 领域 专家系统专家系统也是一种很有效的辅助决策系统。它是利用专家的知识,特别是经验知识经过推理得出辅助决策结论,专家系统辅助决策的方式属于定性分析。 智能决策支持系统智能决策支持系统是以决策支持系统为主体,结合人工智能技术形成的系统。除 专家系统这种典型的人工智能技术以外,还有神经网络、机器学习、遗传 算法以及自然语言理解等多种人工智能技术。 经理信息系统 决策支持系统的发展决策支持系统的技术进步经历以下四个阶段:单模型辅助决策交互建模的 DSS
3、组合模型的 DSS智能的 DSS第二节 决策支持系统概念R.H.Spraque 和 E.D.Carlson 对 DSS 的定义: 决策支持系统具有交互式计算机系统的特征,帮助决策者利用数据和模型去解决半结构化问题。S.S.Mittra 对 DSS 的定义: 决策支持系统是从数据库中找出必要的数据,并利用数学模型的功能,为用户产生所需要的信息。DSS 是在 MIS 的基础上发展起来的,都是以数据库系统为基础,都需要进行数据处理,也都能在不同程度上为用户提供辅助决策信息。第三节 新决策支持系统与综合决策支持系统 20 世纪 90 年代中期,兴起了数据仓库、 联机分析处理和数据挖掘三项新技术,这三项
4、新技术的结合为决策支持系统开辟了新方向,形成了基于数据仓库的新决策支持系统。 数据仓库中存储着大量辅助决策的数据,它为不同的用户随时提供各种辅助决策的随机查询、综合数据或趋势分析信息。联机分析处理提供了多维数据分析、进行切片、切 块、钻取等多种分析手段。数据挖掘是挖掘数据中隐含的信息和知识,让用户在进行决策中使用。 以数据仓库为基础结合联机分析处理和数据挖掘形成了基于数据仓库的新决策支持系统。新决策支持系统与传统决策支持系统具有以下关系:新决策支持系统中数据挖掘 获取的知识与传统决策支持系 统的知识推理中的知识是不相同的。新决策支持系统中没有充分利用模型和模型 组合来 辅助决策。决策支持系统的
5、技术还 没有完全成熟。把数据仓库、联机分析处理、数据挖掘、模型 库、数据库、知识库结合起来形成的综合决策支持系统是更高级形式的决策支持系统。决策支持系统的综合部件是由网络上的客户机来完成,即在客户机上编制 DSS 控制程序,由它来调用或者组合模型服务器上的模型并完成模型计算,调用知识服务器上的知识,完成知 识推理以及实现数据仓库的综合信息查询,或用历史数据进行预测。 这样,就形成了网络环境的综合决策支持系统。第二章 决策支持课前复习第一节 决策与决策支持决策决策自古有之,从宏观讲,决策就是制定政策,从微 观讲,决策就是做出决定。决策是指个人或集体为了达到或实现某一目标,借助一定的科学手段和方法
6、,从若干备选方案中 选择或综合成一个满意合理的方案,并付诸实施的过程。决策过程与决策技术著名的学者. .西蒙认为决策过程由四大步骤组成:(1)确定决策目标;(2)拟定各种被选方案;(3)从各种被选方案中进行选择;(4)执行方案。决策过程八个阶段决策过程中四大步骤可以分成更详细的八个步骤:提出问题;确定目标;价值准则;拟定方案;分析评估;选定方案;实验验证;普遍实施。 决策体系与决策信息决策体系是指决策整个过程中的各个层次、各个部门在决策活动中的决策权限、组织形式、机构设置、调节机制、 监督方法的整个体系。决策体系由决策系统、参谋(智囊)系统、信息系 统、 执行系统与监督系统这五大部分组成一个统
7、一整体。决策支持的概念在 DSS 发展历史中,决策支持是一个先导概念,决策支持的概念形成若干年后,才出现决策支持系统。Keen 和 Morton 认为,决策支持是指用计算机来达到如下的目的:帮助经理在非结构化任务中作出决策;支持而不是代替经理的判断能力;改进决策的效能(Effectiveness ),而不是提高决策的效率(Efficiency)。第二节 模型的决策支持模型及分类模型反映了实际问题最本质的特征和量的规律,描述了现实世界中有显著影响的因素和相互关系。按模型的表现可以分为物理模型、数学模型、结构模型和仿真模型数学模型及建模数学模型分类: (1)原理性模型自然科学中所有定理,公式都是这
8、类模型。(2)系统学模型系统学是研究系统结构与功能的一般规律的科学。按系统的复杂程度把系统分为简单系统和巨系统。简单系统是指组成系统的元素比较少,它们之间的关系又比较简单的系统。巨系统是指组成系统 元素的数目非常庞大的系统。系统学的模型有:系统动力学、大系统理论、灰色系统、系 统辨识、系统控制、最优控制和创造工程学等。 优化模型的决策支持(线性规划实例)第三节 决策方案的决策支持决策方案及生成设计的方案要有明确的、清晰的和简洁的表述。决策方案尽量计算机语言描述。并在计算机上通过计 算得出方案的结果,以便决策者参考。管理科学与运筹学所研究的大量数学模型,均是解决实际决策问题时进行抽象、总结的结晶
9、。我们可以在管理科学/运筹学中的大量数学模型的基 础上,设计解决当前的决策问题的决策方案。 模型并行组合方案的决策支持在对一个实际决策问题做方案时,往往会采用对同一问题的多个不同模型进行计算,然后对这些模型的计算结果进行选择或者进行综合,得到一个比较合理的结果。这是一种采用多模型并行组合的决策方案。下面通过一个实例进行说明。模型串行组合方案的决策支持第三章 决策支持系统课前复习第一节 决策支持系统结构的分析决策支持系统的结构形式三部件结构、三系统结构、三库结构、四库结构决策支持系统的结构比较决策支持系统有多种结构形式,但主要是两种基本结构形式:(1)以“对话 (人机交互)、模型、数据” 三部件
10、组成 DSS。(2)以“语 言系统(LS )、问题处理系统(PPS )、知识系统(KS)”三系统组成DSS。 “对话、模型、数据”三部件结构的优点 :明确了三部件之 间 关系明确它们之间的接口关系和集成关系,便于决策支持系统的设计和关键技术的解决。便于和其他系 统的区 别 它和“管理信息系 统(MIS) ”的区别在于 DSS 多了模型部件。它和“专家系统(ES) ”的区别在于 DSS 中是以“模型、数据 ”部件进行数值计算为主体的系统,而 ES 是以定性知识进 行推理为主体的系统。“LS、PPS、KS”三系统结构的优点:突出了 问题处理系 统(PPS)的重要性。在设计和开发 DSS 时,应该重
11、点考虑决策问题的处理。明确了 语言系统(LS) 在人机交互中的作用。人机交互是要通过语言系统来完成的。决策问题的形式化也要用 LS 来描述。统一了知 识的看法。将数据、模型、规则看成是知识的不同表现形式。决策支持系统的统一结构形式三部件结构中的最大弱点,在于“人机交互”部件太简化。该部件应该是三系统中问题处理系统和语言系统、人机交互系统的综合部件。把“人机交互部件 ”改 为 “综合部件”更合适一些。它具有对决策问题综合“多模型组合运行,大量数据库的存取,人机交互”为一个整体,形成实际决策支持系统。“人机交互与 问题综 合系统(综合部件)” 可理解 为对实际决策问题的集成处理与人机交互的综合作用
12、。它包含的功能有: 人机交互 控制模型的运行 多模型的组合运行 数值计算 数据处理决策支持系统的语言系统的功能要求比较高,即它应具有:调用模型运行能力、数据库存取能力、数值运算能力、数据 处理能力、人机交互能力等五种综合能力,我们称它为决策支持系统语言(DSS 语言)。DSS 语言应是两类语言(数值计算语言和数据库语言)的综合。第二节 数据库系统数据管理技术的发展 人工管理(50 年代中期)数据不保存没有数据管理软件 文件系统(60 年代中期)数据管理软件文件管理系统面向单个应用,冗余度大、独立性差 数据库系统(60 年代后期开始)数据管理软件数据库管理系统面向组织,冗余度小、独立性好1、数据
13、库系统的组成、数据库管理系统数据库系统一般由四部分组成:-数据 库-数据 库管理系统-数据 库管理 员-用 户和应 用程序数据库管理系统有四项主要功能:1、描述数据库描述数据的逻辑结构、存储结构等。2、管理数据库(1)控制整个数据库系统的运行;(2)进行数据检索、插入、删除和修改操作;(3)控制用户的并发访问;(4)检验数据的安全、保密与完整性;3、维护数据库(1)控制初始数据的装入;(2)修改、更新、重组数据库;(3)恢复出现故障的数据库;4、数据通信组织数据的传输2、数据库应用系统的设计和开发步骤数据库应用系统的设计过程主要是:(1)系统需求分析(2)概念结构设计(3)逻辑结构设计(4)物
14、理结构设计3、数据库应用4、数据库系统在决策支持系统中的作用第三节 人机交互与问题综合系统人机交互系统人机交互的三个元素: 交互设备计算机系统的输入输出设备 交互软件展示各种交互功能的核心 人的因素用户操作模型问题综合系统问题综合系统在决策支持系统的统一结构形式中和人机交互系统结合在一起形成综合部件。人机交互系统主要实现人机对话和对 DSS 的控制。问题综合系统完成的任务是:在决策问题用 DSS 语言描述(形式化)后,完成对 DSS 问题的分析和求解。决策支持系统的综合部件(1)决策支持系统语言决策支持系统既要达到综合模型部件和数据部件的作用,又要起到人机交互对话作用,是需要利用功能很强的语言
15、来完成。 (2)综合部件功能 控制模型的运行 多模型的组合运行 人机交互 数值计算和数据处理第四节 模型库系统模型库模型库的概念 模型库的由来(模型应用水平的不断提高)模型程序:即用即编;谁用谁编模型程序包:结构简单;相互独立;数据不共享模型库:共享;可重用;可管理;相关 模型库具有一定组织结构的模型集合由模型库管理系统进行管理每个模型都具有辅助决策能力多个模型能有效地组织成系统多个模型的连接需要利用共享的数据库模型库的组织和存储模型库的存储需求1 个模型对应 24 个文件:源程序文件目标程序文件模型说明文件数据描述文件模型库管理系统模型的存储管理(1)模型的表示(文件形式)程序文件(数学模型
16、、数据处理模型)数据文件(图形、图像等)(2)模型存储的组织结构模型字典库模型文件库(3)模型的查询和维护查询、增加、删除、修改需要:模型字典库和文件库同时进行基本概念模型库管理系统的功能模型库管理系统的语言体系1. 模型管理语言 MML(1)模型的存储管理-同时完成字典库和文件库的管理(2)模型的查询和维护2. 模型运行语言 MRL(1)单模型的调用、运行- 用命令语言完成(2)模型的组合运行-用集成语言编制程序控制运行3.数据接口语言 DIL模型程序通过接口操作数据库第五节 组合模型的决策支持系统 组合模型辅助决策是决策支持系统研究的内容。 它需要模型库提供共享模型和数据库提供共享数据。
17、其基础是多模型辅助决策系统。多模型辅助决策系统区域发展规划系统:区域发展规划问题是典型的多模型辅助决策系统。 区域:社会、经济、文化、生态环境的地域空间,如县、市、国家等都是区域。 规划:制定未来一定时期的目标、任务及实现方案。 区域发展规划:分析自身的优、劣势, 对比其他区域状况,制定快速 发展的目标和措施。模型组合技术模型的组合有多种方式,用逻辑形式表示有: 模型间的关系为“ 与” (and)关系例如“ 模型 1 and 模型 2” 模型间的关系为“ 或” (or)关系例如“ 模型 3 or 模型 4” 模型间的关系为组合“闭包” (and|or)+ 关系例如“ 模型 1 and 模型 2
18、”or“模型 3 and 模型 4”模型组合的程序设计决策支持系统程序与一般系统程序的比较1、相同处DSS 的控制程序对模型的调用与一般系统主程序对子程序的调用在程序结构上是相似的。2、不同处:(1)DSS 中的“模型”是共享资源,同一模型可以被不同 DSS 程序所调用。一般系统程序中的子程序(模块)只能被该系统主程序调用,并隶属于它。它不能被别的系统主程序所调用。(2)DSS 中模型程序所使用的语言可以不同于 DSS 的控制程序。一般系统的子程序(模块)和主程序的语言是一致的。结论:DSS 程序是利用模型程序和数据两个共享资源组建的。在本质上,DSS 程序与一般系统程序是不一样的。决策支持系
19、统的决策支持由多个模型组合而成的决策支持系统,在模型组合中,可以选择不同的模型、相同的数据构成不同的决策支持系统方案;DSS 也可以选择相同模型、不同的数据构成不同的决策支持系统方案;DSS 还可以选择不同的模型和不同的数据构成不同的决策支持系统方案。决策支持系统要修改方案,只需修改综合部件中控制的模型名以及该模型发送控制信息的程序地址。决策支持系统的决策支持作用很容易在模型组合的控制程序中实现。第四章 智能决策支持系统和智能技术的决策支持第一节 智能决策支持系统概述智能决策支持系统的概念智能决策支持系统(Intelligent Decision Support Systems , IDSS)
20、是:决策支持系统(DSS)与人工智能(Artificial Intelligent , AI)技术相结合的系统。智能决策支持系统的结构1、人工智能的决策支持技术 智能决策支持系统中包含了人工智能技术,与决策支持有关的人工智能技术主要有:专家系统、神经网络、 遗传算法、机器学习、自然语言理解等。2智能决策支持系统结构形式 1)基本结构智能决策支持系统(IDSS)决策支持系统(DSS)人工智能(AI )技术 人工智能技术可以概括为:推理机知识库 第二节 人工智能基本原理逻辑推理-形式逻辑形式逻辑是研究人的思维形式及其规律的科学。它是属“ 符号处理”范畴。形式逻辑主要研究:形成概念、作出判断、进行推
21、理。1)概念:概念是反映事物的特有属性和它的取值。2)判断:判断是对概念的肯定或否定。3)推理:推理是从一个或几个判断推出一个新判断的思维过程。知识表示与知识推理命题逻辑举例:1)如果 a 是偶数,那么 a2 是偶数2)“人不犯我,我不犯人;人若犯我,我必犯人”归结原理使用反证法来证明语句。即归结是从结论的非,导出已知语句的矛盾。利用命题逻辑公式和谓词逻辑公式,把逻辑表达式化成合取范式、前束范式,再化成子句。一子句定义为由文字的析取组成的公式。逆向推理是从目标开始,寻找以此目标为结论的规则,并对该规则的前提进行判断,若该规则的前提中某个子项是另一规则的结论时,再找以此结论的规则。重复以上过程,
22、直到对某个规则的前提能够进行判断。按此规则前提判断(“是”或“否 ”)得出结论的判断,由此回溯到上一个 规则的推理,一直回溯到目标的判断。搜索技术搜索技术是人工智能的一个重要研究内容。智能技术体现在减少搜索树中的盲目搜索。1.执行时间与,等成正比的算法,称为按多项式时间执行。2.执行时间与,!和等成正比的算法,称为按指数时间执行。按多项式时间执行的算法,计算机是可以实现的。按指数时间执行的算法,计算机是不可能实现的。 1、基本搜索法对搜索树的基本搜索法有两种思想,一是按广度优先展开搜索树的搜索方法,叫广度优先搜索法;一是按深度优先展开搜索树的搜索方法,叫深度优先搜索法。(1)广度优先搜索法。(
23、2)深度优先搜索法。2、生成测试法。3、爬山法。4、启发式搜索。5、博弈算法。第三节 专家系统与智能决策支持系统专家系统原理专家系统是具有大量专门知识, 并能运用这些知识解决特定领域中实际问题的计算机程序系统。专家系统是利用大量的专家知识,运用知识推理的方法来解决各特定领域中的实际问题。计算机 专家系统这样的软件能够达到人类专家解决问题的水平。产生式规则专家系统产生式规则的推理机搜索+匹配(假言推理)在推理过程中,是一边搜索一边匹配。匹配需要找事实。这个事实一是来自于规则库中别的规则,一是来自向用户提问。在匹配时会出现成功或不成功,对于不成功的将引起搜索中的回溯和由一个分枝向另一个分枝的转移,
24、可见在搜索过程中包含了回溯。专家系统与决策支持系统的集成智能决策支持系统 IDSS 充分发挥了专家系统以知识推理形式解决定性分析问题的特点,又发挥 了决策支持系统以模型计算为核心的解决定量分析问题的特点,充分做到定性分析和定量分析的有机结合。 IDSS 中 DSS 和 ES 的结合主要体现在三个方面:1. DSS 和 ES 的总体结合。由集成系统把 DSS 和 ES 有机结合起来(即将两者一体化) 。2. KB 和 MB 的结合。模型库中的数学模型和数据处理模型作为知识的一种形式,即过程性知识 ,加入到知 识推理过程中去。3. DB 和动态 DB 的结合。DSS 中的 DB 可以看成是相对静态
25、的数据库,它为 ES 中的动态数据 库提供初始数据, ES 推理 结束后,动态 DB 中的结果再送回到 DSS 中的 DB 中去。 建模专家系统智能决策支持系统实例第四节 神经网络的决策支持神经网络原理神经元的学习规则是 Hebb 规则。Hebb 学习规则 :若 i 与 j 两种神经元之间同时处于兴奋状态,则它们间的连接应加强,即:WijSiSj (0)这一规则与“ 条件反射 ”学说一致,并得到神经细胞学说的证实。设 1,当 SiSj1 时,Wij1,在 Si,Sj 中有一个为 0 时,Wij0。反向传播模型神经网络专家系统及实例神经网络专家系统特点:1. 神经元网络知识库体现在神经元之间的连
26、接强度(权值)上。它是分布式存贮的,适合于并行处 理。2. 推理机是基于神经元的信息处理过程。它是以P 模型为基础的,采用数值计算方法。3. 神经元网 络有成熟的学习算法。感知机采用 delta 规则。反向传播模型采用误差沿梯度方向下降以及隐节点的误差由输出结点误差反向传播的思想进行的。. 容错 性好。由于信息是分布式存贮,在个 别单元上即使出错或丢失,所有单元的总体计算结果,可能并不改变。确定系统框架-完成对神经元网络的拓朴结构设计:(1)神经元个数(2)神经元网络层次(3)网络单元的连接确定神经元的作用函数和阈值-作用函数用得较多的有两种:(1)阶梯函数 (2)S 型函数阈值的选取可为定值
27、如 i=0 或 i=0.5,或者 进行迭代计算。神经网络的容错性第五节 遗传算法的决策支持遗传算法(Genetic Algorithm,GA)是模拟生物进化的自然选择和遗传机制的一种寻优算法。它模拟 了生物的繁殖、交配和 变 异现象,从任意一初始种群出发, 产生一群新的更适 应环境的后代。这样一代一代不断繁殖、进化,最后收 敛到一个最适应环境的个体上。遗传算法对于复杂的优化问题无需建模和进行复杂运算,只需要利用遗传算法的算子就能寻找到问题的最优解或满意解。遗传算法原理1. 群体中个体的编码如何将问题描述成位串的形式,即问题编码。一般将问题的参数用二进制位(基因)编码构成子串,再将子串拼接起来构
28、成“ 染色体”位串。2. 适应值函数的确定适应值函数(即评价函数) 是根据目标函数确定的。适应值总是非负的,任何情况下总是希望越大越好。如果目标函数不是取最大值时,需要将它映射成适应值函数。优化模型的遗传算法求解优化模型的计算是遗传算法最基本的也是最重要的研究和应用领域之一。一般说来,优化计算问题通常带有大量的局部极 值点,往往是不可微的、不连续的、多维的、有约束条件的、高度非 线性的 NP 完全问题。精确地求解优化问题的全局最优解一般是不可能的。 获取知识的遗传算法 1980 年,Smith 采用遗传 算法研制了一种分类器系 统, 这是遗传算法在机器学习中的重要应用系统。他使用单个字符串来表
29、示一条规则。 分类器系统的规则形式如下: IF THEN 意思是当条件(condition)满足时,就可能采取行动(action)。分类器系统的规则采用固定长度表示。这便于遗传算子的处理。遗传规划建立模型 遗传规划是建立数学模型(发现公式)的一类遗传算法。 编码采用了层次化形式进行,每个个体都对应一个公式,在设计适应度函数时,应用给定数据对每个公式的误差进行计算,误差小的适应度高,误差大的适应度低。 通过遗传规划算子对群体空间进行操作,通过选择算子,变异算子,交换算子等选择适应度高的个体进入下一代遗传, 最终按照终止原则,输出算法计算的结果,即 发现的公式。第六节 机器学习的决策支持机器学习概
30、述学习和解决问题是人类最重要的两个智能行为。机器学习是让计算机模拟和实现人类的学习,获取知识。机器学习也是计算机具有智能的重要标志。 (1)R . S . Michalski 认为:学习是构造或修改所经历的事物的表示。该观点强调知识的表示。 (2)学习是知识的获取。该观点强调知识获取。 (3)H . A . Simon 认为:学 习是系统在相似的任务中,做一些适应性变化,使得在下一次类似的任务中,做得更好。该观点强调 学习的效果。 机器学习分类学习过程的本质是学生(学习系统)把教师或环境(如书本)提供的信息转换成能够理解的形式记忆下来, 以便将来使用。当前,国际上流行的机器学习分类方法主要有:
31、按应用领域分类(专家系统、问题求解、 认知模 拟);按获取知识的表示分类(逻辑 表达式、产生式规则、决策 树、框架、神 经网络);按推理策略分类(演绎推理和 归纳推理) ;按系统性分类(历史渊源、知识表示、推理策略、 应用领域)。建立模型的发现学习BACON 系统的思想是利用一些算子反复构造一些新的 项,当这些项中有一个是常数时,就得到概念:“项常数”。第五章 数据仓库与数据挖掘的决策支持第一节 数据仓库、数据仓库 系统及应用1.数据仓库的基本原理数据仓库的概念、结构,数据集市,元数据数据仓库是面向主题的、集成的、稳定的,不同 时间 的数据集合,用于支持经营管理中决策制定过程。近期基本数据:是
32、最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。 数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。 提供更紧密集成的数据集市就应运产生。 目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 数据集市(Data Marts)是一种更小、更集中的数据仓
33、库,为公司提供分析商业数据的一条廉价途径。 Data Marts 是指具有特定 应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。元数据是数据仓库的重要组成部分。元数据描述了数据仓库的数据和环境,即关于数据的数据(meta data)元数据包括四种元数据。2、数据仓库系统数据仓库系统结构、数据仓库的存储数据仓库应用是一个典型的客户/服务器(C/S)结构形式。数据仓库采用服务器结构,客户端所做的工作有:客户交互、格式化查询、结果显示、报表生成等。服务器端完成各种辅助决策的 SQL 查询、复 杂的计算和各类综合功能等。现在,越来越普通的一种
34、形式是三层 C/S 结构形式,即在客户与数据仓库服务器之间增加一个多维数据分析(OLAP)服务器。数据仓库存储采用多维数据模型。3、简单阐述一下数据仓库在决策支持中的应用第二节 数据挖掘及其应用1、数据挖掘的概念知识发现(KDD):从数据中发现有用知识的整个过程。数据挖掘(DM):KDD 过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。KDD 过程定义:从大量数据中提取出可信的、新颖 的、有用的并能被人理解的模式的高级处理过程。“模式”可以看成是“知识”的雏形,经过验证、完善后形成知识。2、数据挖掘的方法和技术(一)归纳学习方法分为两大类:信息论方法(决策树方法)和集合
35、论方法。 1、信息论方法(决策树方法)利用信息论的原理建立决策树或者是决策规则树。(1)ID3 方法:Quiulan 研制的 ID3 方法是利用信息论中互信息建立决策树。(2)IBLE 方法:是利用信息论中信道容量,寻找数据库中信息量大的多个字段的取值建立决策 2、集合论方法 (1)粗糙集(Rough Set)方法对数据库中的条件属性集与决策属性集建立上下近似关系,对下近似集合建立确定性规则,对上近似集合建立不确定性规则(含可信度)。 (2)关联规则挖掘在交易事务数据库中,挖掘出不同商品集的关联关系,即发现哪些商品频繁地被顾客同时购买。(3)覆盖正例排斥反例方法它是利用覆盖所有正例,排斥所有反
36、例的思想来寻找规则。比较典型的有 AQ11 方法,AQ15 方法以及 AE5 方法。(二)仿生物技术仿生物技术典型的方法是神经网络方法和遗传算法。1、神经网络方法:包括:前馈式网络、反 馈式网络、自 组织网络等多个神经网络方法。2、遗传算法:这是模拟生物进化过程的算法。它由三个基本算子组成:繁殖(选择)、交叉(重组)、 变异(突变)遗传算法起到产生优良后代的作用,经过若干代的遗传,将得到满足要求的后代(问题的解)。(三)公式发现在工程和科学数据库中对若干数据项(变量) 进行一定的数学运算,求得相应的数学公式。1物理定律发现系统 BACONBACON 发现系统完成了物理学中大量定律的重新 发现。2经验公式发现系统 FDD我们研制了 FDD 发现系统, 寻找由数据项的初等函数或复合函数组合成的经验公式。(四)统计分析方法利用统计学原理通过对总体中的样本数据进行分析得出描述和推断该总体信息和知识的方法。(五)模糊数学方法利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分类等。 (六)可视化技术利用可视化技术分析数据库,找到潜在的有用信息。3、数据挖掘的知识表示