1、0,数据挖掘与决策系统,华连连 QQ:2427023271,1.什么是数据挖掘? 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 与数据挖掘相近的术语:数据库中知识发现(KDD)、知识提取、数据/模式识别、 数据考古、数据捕捞、知识获取、商业智能等。,物流实务与管理,华连连 1,一、数据挖掘及数据库的基本概念,2,知识发现(KDD)过程,2.数据挖掘是知识发现的核心步骤,Data Cleaning,Data Integration,Databases,Data Warehouse,Knowledge,Tas
2、k-relevant Data,Selection,Data Mining,Pattern Evaluation,2018/10/25,3. 数据库类型:关系数据库是表的集合,每个表都赋予一个唯一的名字。事务数据库由一个文件组成,其中每个记录代表一个事务。数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,并通过数据清理、变换、集成等来构造。,3,4.数据挖掘的功能,关联分析: 分类和预测 聚类 异常值探测 序列模式挖掘,4,2018/10/25,5.关联分析,关联分析是用于挖掘、发现大量数据中项集之间存在的、重要的、有趣的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。
3、 在不知道关联函数或关联函数不确定的情况下,为了反映所发现规则的有用性和确定性,关联分析生成的规则都要满足最小支持度阀值和最小置信度阀值。,5,6.关联规则的分类,1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。,6,布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种
4、类变量。例如:性别=“女”=职业=“秘书”,是布尔型关联规则;性别=“女”=avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。,7,在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层数据挖掘的关联规则中,对数据的多层性已经进行了充分的考虑。 例如:IBM台式机=Sony打印机,是一个细节数据上的单层关联规则;台式机=Sony打印机,是一个较高层次和细节层次之间的多层关联规则。,8,在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的
5、一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=尿布,这条规则只涉及到用户的购买的物品;性别=“女”=职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。,9,7.分类和预测,分类是对一个类别进行描述及概括相关特征,并提取出描述重要数据类的模型。 数据挖掘中的分类方法很多,主要有决策树和决策规则、贝叶斯信念网络、神经网络以及遗传算法等。 预测是通过建立连续值函数模型达到预测未来的数据趋势。预测的方法主要有回归分析、时间序列分析等。各种分类模型也可以预测,但主要是预测分类标号。,10,2018/10/25,8.聚类,聚类是在要划分的类未知的情况下,将数据库中
6、的记录划分为多个类或簇,使得同类内的对象之间具有较高的相似度,不同类间的差异较大。它是概念描述和偏差分析的先决条件。 数据挖掘中的聚类方法有划分方法、层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法等。,11,2018/10/25,9.异常值探测,异常值指的是数据库中不符合数据一般模型的数据对象。 从数据库中探测异常值很有意义,因为它们本身可能隐藏着重要的信息,比正常的数据更有用,忽略或删除它们都会导致信息的丢失。 例如,发现金融和保险领域的欺诈行为、税款的脱逃、通信费用的恶意欠费、网络中的黑客入侵、追寻极低或极高收入者的消费行为以及对多种治疗方式不寻常反映的发现等。,12,201
7、8/10/25,10.统计学与数据挖掘的关系,统计学和数据挖掘有着共同的目标。 统计学和数据挖掘有着共同的目标:发现数据中的结构或模式。 统计学在数据挖掘中起着重要的作用。 传统的统计学方法是数据挖掘的经典方法,统计学思想在整个数据挖掘过程都有重要的体现,担负着不可忽视的重任。 数据挖掘技术与统计学集成是必然趋势。统计学是数据挖掘的核心。 统计学方法必须有前提假设。而数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。,13,数据样本是数据挖掘过程的基本组成部分。,11.原始数据的表述,2018/10/25,14,每个样本都用几个特征来
8、描述,每个特征有不同类型的值。,2018/10/25,2018/10/25,常见的数据类型有:数值型和分类型。数值型包括实型变量和整型变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。,15,2018/10/25,2018/10/25,变量的分类:连续型变量和离散型变量。 连续型变量也认为是定量型或是量度型,是指在一定区间内可以任意取值的变量。 离散型变量也叫定性型变量,是指全部可能取到的不相同的值是有限个的变量。 注:一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。,16,12.数据挖掘的步骤,数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要
9、有数据准备、规律寻找和规律表示3个步骤。 数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集; 规律寻找是用某种方法将数据集所含的规律找出来; 规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。,17,13.数据质量,数据质量的指标: 数据应当准确; 应该根据数据类型存储数据; 数据要有完整性; 数据要有一致性; 数据不要冗余; 数据应当及时; 数据应当很好地被理解; 数据集应当是完整的。,18,14.数据仓库,数据仓库是一个集成的,面向主题的、设计用于决策支持功能的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。 数据集市是指一个组织可能
10、有几个局部或部门的数据仓库,有大有小,其规模主要依赖于其主题的范围。,19,二、数据挖掘技术和功能,1.决策树和决策规则: 决策树是用二叉树形图来表示处理逻辑的一种工具,是对数据进行分类的方法。决策树的目标是针对类别因变量加以预测或解释反应结果。 决策树和决策规则是解决实际应用中分类问题的数据挖掘方法。 一个典型的决策树学习系统采用的是自顶向下的方法,在部分搜索空间中搜索解决方案。它可以确保求出一个简单的决策树,但未必是最简单的。决策树包括属性已被检验的节点,一个节点的输出分枝和该节点的所有可能的检验结果相对应。,20,决策树的应用举例,2018/10/25,21,客户信贷分类,输出结果:关于
11、“buys_computer”的决策树,22,2018/10/25,2.神经网络,人工神经网络是人脑的抽象计算模型。大脑约有1011个微处理单元,叫做神经元。这些神经元之间相互连接,连接的数目大约达到1015数量级。和人脑一样,人工神经网络也是由人工神经元组成的,这些神经元之间相互连接。 当我们将网络看作一个图表的时候,我们可以把神经元看作是节点,神经元之间的相互连接看作边。,23,2.1神经网络的定义,神经网络是一个由很多节点通过方向性链接组成的一个网络结构。每一个节点代表一个处理单元,并且节点之间的连接表明了所连接的节点之间的因果关系。所有的节点都是自适应的,这就意味着这些节点的输出同这些
12、节点的可修改的参数值有关。 定义:人工神经网络是由大量并行分布式处理单元组成的简单处理单元。它有通过调整连接强度而从经验知识进行学习的能力,并可以将这些知识进行运用。,24,2.2 使用神经网络可以提供几种有用的属性和能力: 非线性作为基本单元的神经网络可以使线性的或者非线性的处理元素,但是整个神经网络是高度非线性的。 从样本进行学习的能力神经网络通过对样本数据进行一系列的训练和学习,可以改变它的联接权重。 自适应神经网络有内置的随外部环境改变联接权重的能力。特别是在某个特定的环境下训练好的神经网络在外部环境改变的时候稍加训练就可以适应新的环境。 响应验证在对数据进行分类的环境中,神经网络可以
13、设计成不仅仅从给定的样本中提供有关分类的信息,还可以提供分类的置信度。,25,容错性神经网络有固有的潜在容错能力,或者说是计算的健壮性。它的执行效率在某些不利情形下并不会显著地降低,比如说神经元的断开、干扰或者数据的丢失。 统一的分析和设计:基本上,人工神经网络和信息处理器一样具有良好的通用性。在所有有关人工神经网络的应用领域,使用了相同的原理、符号以及方法上使用了相同的步骤。,26,2.3人工神经元的模型,一个人工神经元就是一个信息处理单元,它是一个神经网络运转的基础。神经元由3个基本元素组成:一组连接线、加法器、激活函数f,限制神经元输出值y的幅度。,27,2.4人工神经网络结构,人工神经
14、网络的结构是通过节点的特性以及网络中节点连接的特性来定义的。网络结构可以用网络的输入数目、输出数目、基本节点的总数以及节点间的组织和连接方式来表示。 按照连接的类型,神经网络通常分为两类:前向型和回馈型。 前向型:处理过程的传播方向是从输入端传向输出端且没有任何的回环或反馈。在一个分层的前向型神经网络中,同一层上的节点之间是没有相互连接的,在某一特定的层上节点的输出总是作为下一层节点的输入。 反馈型:有反馈连接组成网络中的封闭回路(通常有一个延迟单元作为同步组件。),28,2.5 神经网络学习过程,神经网络的最主要任务是学习现实世界中内嵌神经网络的模型,并保持模型同真实世界的高度一致性,以便能
15、够实现相关应用程序的特定目标。 学习过程是基于真实世界的数据样本进行的,这是设计神经网络通信息分类处理系统的最根本的不同。,29,2.6 神经网络的多层感知机,多层感知机有3个显著的特征: 神经网络中的每个神经元模型通常包含一个非线性的函数,曲线或者双曲线函数。 神经网络包含神经元的一个或多个隐层,不是神经网络的输入或者输出的一部分。这些隐藏节点使得神经网络从输入模式中不断获取有意义 的特性来学会复杂和高度非线性的高度。 神经网络中的层与层之间高度的连接性。,30,2.7 竞争网络和竞争学习,竞争神经网络属于一种循环网络,它们是以无指导学习算法为基础的。为了构建竞争学习规则的网络,此类人工神经
16、网络的标准技术有3个基本元素是必需的: 具有相同结构,且与初始随机选择的权重连接的一组神经。因此,神经可以不同地响应一组被给定的输入样本。 决定每根神经强度的极限值。 允许神经争取响应一组给定的输入子集权利的机制,这样每次只有一个输出神经被激活,赢得竞争的神经被称为胜者全获神经。,31,3.遗传算法(Genetic Algorithm),3.1遗传算法的基本原理遗传算法是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法,是近几年发展起来的一种崭新的全局优化算法,它借 用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个个体的适应性的提高。这一点体现了
17、自然界中“物竞天择、适者生存“进化过程。,32,3.2遗传算法的特性:,1.遗传算法是并行搜索方法,它能在并行处理机器上执行,这可极大提高它们的运行速度。 2.遗传算法即可应用于连续型优化问题,也可应用于离散性优化问题。 3.遗传算法是随机的,在一些实际的优化应用中,不可避免要陷入局部小点,而遗传算法的陷入的可能性较小。 4.遗传算法的灵活性既方便了复杂模型中的结构识别,也方便了其中的参数识别。,33,遗传算法出现的目的,解决经典数学方法无法有效地求出 最优解的复杂的、大规模的难题。,34,3.3遗传算法的应用,遗传算法被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域
18、。它是现代有关智能计算中的关键技术。,35,3.4遗传算法的基本运算过程,a)初始化:设置进化代数计数器t=0,设置最大进化代数T,随机生成M个个体作为初始群体P(0)。 b)个体评价:计算群体P(t)中各个个体的适应度。 c)选择运算:将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。 d)交叉运算:将交叉算子作用于群体。所谓交叉是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。遗传算法中起核心作用的就是交叉算子。,36,3.4遗传算法的基本运算过程,e)变异运算:将变异算子作用于
19、群体。即是对群体中的个体串的某些基因座上的基因值作变动。 群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t 1)。 f)终止条件判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出,终止计算。,37,38,遗传算法的基本术语,编码:从问题域到遗传域的映射。即性状与基因的DNA序列的映射 解码:从遗传域到问题域的映射。即将DNA序列解释成个体的性状 适应度:种群的某个个体对生存环境的适应程度。适应度高的个体可以获得更多的繁殖机会,而适应度低的个体,其繁殖机会就会比较少,甚至逐渐灭绝 选择:以一定概率从种群中选择若干个体的操作。一般而言,选择就是基于适应度的优胜劣汰的
20、过程 交叉:有性生殖生物在繁殖下一时两个同源染色体之间通过交叉而重组,即在两个染色体的相同位置处DNA被切断,前后两串分别交叉组合形成新的染色体,问题的求解-群体爬山,2018/10/25,40,演化算法的求解问题过程 是一个不断爬山的过程,爬山的模拟,search space,随机地生成初始解,爬山的模拟,search space,不断地通过交叉变异以及选择来达到爬山的效果,爬山的模拟,search space,不断地通过交叉变异以及选择来达到爬山的效果,爬山的模拟,search space,不断地通过交叉变异以及选择来达到爬山的效果,爬山的模拟,search space,不断地通过交叉变异以及选择来达到爬山的效果,爬山的模拟,search space,不断地通过交叉变异以及选择来达到爬山的效果,爬山的模拟,search space,不断地通过交叉变异以及选择来达到爬山的效果,爬山的模拟,search space,最终达到最优,其他复杂函数,2018/10/25,49,遗传算法的应用,2018/10/25,50,