1、2019/6/10,1,第六章 机器学习,2019/6/10,2,第六章 机器学习,主要内容: 机器学习概述 归纳学习 示例学习 基于决策树的归纳学习方法ID3 类比学习 基于范例的学习 解释学习 支持向量机,2019/6/10,3,学习,经典定义:利用经验改善系统自身的性能T.Mitchell, Book 97 随着该领域的发展,主要做智能数据分析 典型任务:预测 例如:天气预报,2019/6/10,4,机器学习(续),数据挖掘,数据库,机器学习,数据分析技术,数据管理技术,2019/6/10,5,美国航空航天局JPL实验室的科学家在Science(2001年9月)上撰文指出:机器学习对科学
2、研究的整个过程正起到越来越大的支持作用,该领域在今后的若干年内将取得稳定而快速的发展,重要性,生物 信息学,计算 金融学,分子 生物学,行星 地质学,工业过程控制,机器人,遥感信 息处理,信息安全,机 器 学 习,2019/6/10,6,重要性:例子网络安全,入侵检测: 是否是入侵?是何种入侵?,如何检测? 历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现 对当前访问模式分类,这是一个典型的预测型机器学习问题 常用技术: 神经网络 决策树 支持向量机 k近邻 序列分析 聚类 ,2019/6/10,7,重要性:例子生物信息学,常用技术: 神经网络 支持向量机 隐马尔可夫模型 k近邻
3、决策树 序列分析 聚类 ,2019/6/10,8,重要性(续),机器学习在过去十年中发展极为迅速,今后会快速稳定地发展、对科学做出更大贡献的领域 E.Mjolsness & D. DesCoste, Science 01 人工智能中最活跃、应用潜力最明显的领域(之一) T.G. Dietterich, AIMag 97 美国、欧洲各国都投入了大量人力物力 大型公司如波音、微软、通用电器等都有研究课题 已有一些研究成果进入产品,2019/6/10,9,机器学习角色的转变,如果我们想做出重要的贡献,首先需要把握住该领域发展的脉搏机器学习现在似乎已经发展到一个新阶段 机器学习起源于人工智能对人类学习
4、能力的追求,上一阶段的研究几乎完全局限在人工智能这一领域中(学习本身是目的) 而现在,机器学习已经开始进入了计算机科学的不同领域,甚至其他学科,成为一种支持技术、服务技术(学习本身是手段),2019/6/10,10,挑战问题(1):泛化能力,共性问题: 几乎所有的领域,都希望越准越好 提高泛化能力是永远的追求 目前泛化能力最强的技术: 支持向量机(SVM)产生途径:理论-实践 集成学习(ensemble learning)产生途径:实践-理论,2019/6/10,11,挑战问题(1):泛化能力(续),第一个挑战问题: 今后10年 能否更“准”? 如果能,会从哪儿来?,2019/6/10,12,
5、挑战问题(2):速度,共性问题: 几乎所有的领域,都希望越快越好 加快速度也是永远的追求 “训练速度” vs. “测试速度训练速度快的往往测试速度慢:k近邻测试速度快的往往训练速度慢:神经网络,2019/6/10,13,挑战问题(2):速度(续),第二个挑战问题: 今后10年 能否更“快”? 能做到“训练快”、“测试也快”吗?如果能,如何做?,2019/6/10,14,挑战问题(3):可理解性,共性问题: 绝大多数领域都希望有“可理解性”例子:医疗诊断地震预测 目前强大的技术几乎都是(或基本上是)“黑盒子” 神经网络、支持向量机、集成学习 “黑盒子”能满足需要吗?,2019/6/10,15,挑
6、战问题(3):可理解性(续),第三个挑战问题: 今后10年 能否产生“白盒子”? 是和“黑盒子”完全不同的东西, 还是从“黑盒子”变出来?,2019/6/10,16,挑战问题(4):数据利用能力,传统的机器学习技术 对有标记数据进行学习 “标记” 事件所对应的结果 共性问题:随着数据收集能力飞速提高、Internet的出现,在大多数领域中都可以很容易地获得大量未标记数据例子:医学图象分析垃圾邮件过滤 没有标记的数据是没用的吗?,2019/6/10,17,挑战问题(4):数据利用能力(续),共性问题:在绝大多数领域中都会遇到“坏”数据,有时甚至只有“坏”数据例子:海军舰队Web “坏”数据 大量
7、噪音、属性缺失、不一致、 传统的“坏”数据处理方式 “扔掉” “坏”数据一点用也没有吗?,2019/6/10,18,第四个挑战问题: 今后10年 能否“数据通吃”? 如何“吃”?,挑战问题(4):数据利用能力(续),2019/6/10,19,挑战问题(5):代价敏感,目前的机器学习技术 降低错误率 “错误”是没有区别的吗? 把“好”当成“坏” 把“坏”当成“好” 共性问题: 大多数领域中的错误代价都不一样例子:入侵检测癌症诊断,一样吗?,2019/6/10,20,第五个挑战问题: 今后10年 能否“趋利避害”? 在达到较低的总错误率的基础上,如何“趋”、如何“避”?,挑战问题(5):代价敏感(
8、续),2019/6/10,21,挑战问题:,More ,在任何一个挑战问题上取得突破性进展,都可能成为对机器学习的重要贡献,2019/6/10,22,6.1 机器学习概述,学习可能只是一个简单的联想过程,给定了特定的输入,就会产生特定的输出。如:狗 命令“坐” 行为“坐”,2019/6/10,23,学习的成功是多种多样的: 学习识别客户的购买模式以便能检测出信用卡欺诈行为, 对客户进行扼要描述以便能对市场推广活动进行定位, 对网上内容进行分类并按用户兴趣自动导入数据, 贷款申请人的信用打分, 燃气涡轮的故障诊断等。,2019/6/10,24,6.1.1 简单的学习模型,学习系统的基本结构如图所
9、示。 ,环境向系统的学习部分提供某些信息, 学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效能, 执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。 在具体的应用中,环境、知识库和执行部分决定了具体的工作内容,学习部分所需要解决的问题完全由上述三部分确定。,2019/6/10,25,影响学习系统设计的最重要的因素是环境向系统提供的信息。 知识库里存放的是指导执行部分动作的一般原则,但环境向学习系统提供的信息却是各种各样的。 如果信息的质量比较高,与一般原则的差别比较小,则学习部分就比较容易处理。 如果向学习系统提供的是杂乱无章的指导执行具体动作的具体信息,则学习系统需要
10、在获得足够数据之后,删除不必要的细节,进行总结推广,形成指导动作的一般原则,放入知识库。 这样,学习部分的任务就比较繁重,设计起来也较为困难。,2019/6/10,26,学习系统所进行的推理并不完全是可靠的,它总结出来的规则可能正确,也可能不正确,这要通过执行效果加以检验。 正确的规则能使系统的效能提高,应予保留;不正确的规则应予修改或从数据库中删除。知识库是影响学习系统设计的第二个因素。 知识表示有多种形式,如 特征向量、 一阶逻辑、 产生式规则、 语义网络 框架等。 选择表示方式时要兼顾以下4个方面:,2019/6/10,27,(1)表达能力强。 例如,如果研究的是一些孤立的木块,则可选用
11、特征向量表示方式。用(,)这种形式的向量表示木块。用一阶逻辑公式描述木块之间的相互关系,如用公式表示一个红色的木块在一个绿色的木块上面。,2019/6/10,28,(2)易于推理。 如,在推理过程中经常会遇到判别两种表示方式是否等价的问题。在特征向量表示方式中,解决这个问题比较容易;在一阶逻辑表示方式中,解决这个问题要花费较高的计算代价。 因为学习系统通常要在大量的描述中查找,很高的计算代价会严重影响查找的范围。因此如果只研究孤立的木块而不考虑相互的位置,则应该使用特征向量表示。,2019/6/10,29,(3)容易修改知识库 学习系统的本质要求它不断地修改自己的知识库,当推广得出一般执行规则
12、后,要加到知识库中去。当发现某些规则不适用时要将其删除。 因此学习系统的知识表示,一般都采用明确、统一的方式,如特征向量、产生式规则等,以利于知识库的修改。新增加的知识可能与知识库中原有的知识相矛盾,因此有必要对整个知识库作全面调整。删除某一知识也可能使许多其他知识失效,因此需要进一步作全面检查。,2019/6/10,30,(4)知识表示易于扩展 随着系统学习能力的提高,单一的知识表示己经不能满足需要;一个系统可能同时使用几种知识表示方式。有时还要求系统自己能够构造出新的表示方式,以适应外界信息不断变化的需要。因此要求系统包含如何构造表示方式的元级描述。现在,人们把这种元级知识也看成是知识库的
13、一部分。这种元级知识使学习系统的能力得到极大提高,使其能够学会更加复杂的东西,不断地扩大它的知识领域和执行能力。,2019/6/10,31,学习系统不能在全然没有任何知识的情况下凭空获取知识,每一个学习系统都要求具有某些知识以理解环境提供的信息,分析比较,作出假设,检验并修改这些假设。 因此,学习系统是对现有知识的扩展和改进。,2019/6/10,32,6.1.2 什么是机器学习,学习是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样任务或类似任务时,比现在做得更好或效率更高。 例子: 机器学习是一门研究机器获取新知识和新技能,并识别现有知识的人工智能分支。,1959年
14、Samuel设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力。,2019/6/10,33,发展分四阶段: (1)在20世纪50年代中叶到60年代中叶,属于热烈时期。 在这个时期,所研究的是“没有知识”的学习,即“无知”学习;其研究目标是各类自组织系统和自适应系统;其主要研究方法是不断修改系统的控制参数以改进系统的执行能力,不涉及与具体任务有关的知识。 指导本阶段研究的理论基础是早在20世纪40年代就开始研究的神经网络模型。 这个阶段的
15、研究导致了“模式识别”的诞生,同时形成了两种机器学习方法判别函数法和进化学习。 Samuel的下棋程序就是使用判别函数法的典型例子。,6.1.3 机器学习研究概况,2019/6/10,34,(2)在20世纪60年代中叶至70年代中叶,被称为冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。机器能够采用符号来描述概念(符号概念获取),并提出关于学习概念的各种假设。 本阶段的代表性工作 神经网络学习机因理论缺陷未能达到预期效果而转入低潮。,Winston的结构学习系统和Hayes Roth等人的基于逻辑的归纳学习系统。,2019/6/10,35,(3)从2
16、0世纪70年代中叶至80年代中叶,称为复兴时期。 在这个时期,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和各种学习方法。机器的学习过程一般都建立在大规模的知识库上,实现知识强化学习。 本阶段开始把学习系统与各种应用结合起来,促进了机器学习的发展。 在出现第一个专家学习系统之后,示例归约学习系统成为研究的主流,自动知识获取成为机器学习的应用研究目标。 1980年,在CMU召开了第一届机器学习国际研讨会。此后,机器归纳学习进入应用。 1986年,杂志Machine Learning创刊。,2019/6/10,36,(4)机器学习的最新阶段始于1986年。在这一时期,符号学习由“无知”
17、学习转向有专门领域知识的增长型学习,因而出现了有一定知识背景的分析学习。神经网络中的反向传播算法获得应用。基于生物发育进化论的进化学习系统和遗传算法,因吸取了归纳学习与连接机制学习的长处而受到重视。 基于行为主义的强化学习系统因发展新算法和应用连接机制学习遗传算法的新成就而显示出新的生命力。数据挖掘研究的蓬勃发展。,2019/6/10,37,它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习的理论基础。 结合各种学习方法的多种形式的集成学习系统研究正在兴起。 机器学习与人工智能各种基础问题的统一性观点正在形成。 各种学习方法的应用范围不断扩大,一部分已形成商品。 数据
18、挖掘和知识发现技术在生物医学、金融管理、商业销售等领域得到成功应用。,ML进入新阶段表现在:,2019/6/10,38,6.1.3机器学习的研究概况,学习过程与推理过程是紧密相连的,机器学习所采用的策略可分为: 机械学习 示教学习 类比学习 示例学习 学习中所用的推理越多,系统的能力就越强。,机械学习就是记忆。这种学习策略不需要任何推理过程。外界输入知识的表示方式与系统内部的表示方式完全一致,不需要任何处理与转换。,2019/6/10,39,虽然机械学习在方法上看来很简单,但由于计算机的存储容量相当大,检索速度又相当快,而且记忆精确、无丝毫误差,所以也能产生人们难以预料的效果。 Samuel的
19、下棋程序就是采用了这种机械记忆策略。为了评价棋局的优劣,他给每一个棋局都打了分,对自己有利的分数高,不利的分数低,走棋时尽量选择使自己分数高的棋局。这个程序可记住53000多个棋局及其分值,并能在对弈中不断地修改这些分值以提高自己的水平,这对于人来说是无论如何也办不到的。,2019/6/10,40,机械学习 示教学习 类比学习 示例学习,示教学习策略:对于使用示教学习策略的系统来说,外界输入知识的表达方式与内部表达方式不完全一致,系统在接受外部知识时需要一点推理、翻译和转化工作。MYCIN,DENDRAL等专家系统在获取知识上都采用这种学习策略。,类比学习系统只能得到完成类似任务的有关知识,因
20、此,学习系统必须能够发现当前任务与已知任务的相似点,由此制定出完成当前任务的方案,因此,它比上述两种学习策略需要更多的推理。,2019/6/10,41,采用示例学习策略的计算机系统,事先完全没有完成任务的任何规律性的信息,所得到的只是一些具体的工作例子及工作经验。系统需要对这些例子及经验进行分析、总结和推广,得到完成任务的一般性规律,并在进一步的工作中验证或修改这些规律,因此需要的推理是几种策略中最多的此外,还有基于解释的学习、强化学习和基于神经网络的学习等。,机械学习 示教学习 类比学习 示例学习,2019/6/10,42,6.2-6.3归纳学习,归纳学习 人类智能的重要体现; 机器学习的核
21、心技术之一; 从提供的示例中抽象出结论的知识获取过程。 依据:具体的示例; 目标:一般性推论; 能解释已知示例; 预见新事实。,示例,一般性推论,新的事实,归纳,演绎,2019/6/10,43,1.归纳学习的模式和规则 一般的归纳推理结论只是保假的。 从相同的实例集合中,可以提出不同的理论来解释它,应按某一标准选取最好的作为学习结果。 人类知识的增长主要得益于归纳学习方法。 虽然归纳得出的新知识不像演绎推理结论那样可靠,但存在很强的可证伪性,对于认识的发展和完善具有重要的启发意义。,归纳学习(induction learning)是应用归纳推理进行学习的一种方法。根据归纳学习有无教师指导,可把
22、它分为示例学习和观察与发现学习。前者属于有师学习,后者属于无师学习。,2019/6/10,44,(1)归纳学习的模式 给定: 观察陈述F,用以表示有关某些对象、状态、过程等的特定知识; 假定的初始归纳断言(可能为空); 背景知识,用于定义有关观察陈述、候选归纳断言以及任何相关问题领域知识、假设和约束,其中包括能够刻画所求归纳断言的性质的优先准则。 求:归纳断言H,能重言蕴涵或弱蕴涵观察陈述,并满足背景知识。,2019/6/10,45,假设H永真蕴涵事实F,说明F是H的逻辑推理,则有: H F (读作H特殊化为F) 或F H (读作F一般化为H) 这里,从H推导到F是演绎推理,因此是保真的;而从
23、事实F推导出假设H是归纳推理,因此不是保真的,而是保假的。,2019/6/10,46,归纳学习系统的模型如图所示。 实验规划过程通过对实例空间的搜索完成实例选择,并将这些选中的活跃实例提交给解释过程。 解释过程对实例加以适当转换,把活跃实例变换为规则空间中的特定概念,以引导规则空间的搜索。,归纳学习系统模型,规划过程,解释过程,2019/6/10,47,(2)归纳概括规则 归纳推理过程中,要引用如下归纳规则: 选择性概括规则 构造性概括规则 令D1,D2分别为归纳前后的知识描述,则归纳是D1=D2 。,如果D2中所有描述基本单元(如谓词子句的谓词)都是D1中的,只是对D1中基本单元有所取舍,或
24、改变连接关系,那么就是选择性概括。,如果D2中有新的描述基本单元(如反映D1各单元间的某种关系的新单元),那么就称之为构造性概括。,2019/6/10,48,2.归纳学习方法 (1)示例学习示例学习(learning from examples) ,它是通过环境中若干与某概念有关的例子,经归纳得出一般性概念的一种学习方法。 外部环境提供的是一组例子(正例和反例),它们是一组特殊的知识,每一个例子表达了仅适用于该例子的知识。 示例学习就是要从这些特殊知识中归纳出适用于更大范围的一般性知识,以覆盖所有的正例并排除所有反例。 如,如果用一批动物作为示例,并且告诉学习系统哪一个动物是“马”,哪一个动物
25、不是。当示例足够多时,学习系统就能概括出关于“马”的概念模型,使自己能够识别马,并且能将马与其他动物区别开来。,归纳学习的方法,2019/6/10,49,(2)观察发现学习 观察发现学习(learning from observation and discovery) ,其目标是确定一个定律或理论的一般性描述,刻画观察集,指定某类对象的性质。 观察发现学习分为 概念聚类 机器发现 前者用于对事例进行聚类,形成概念描述; 后者用于发现规律,产生定律或规则。1)概念聚类基本思想是把事例按照一定的方式和准则分组,如划分为不同的类或不同的层次等,使不同的组代表不同的概念,并且对每一个组进行特征概括,得
26、到一个概念的语义符号描述。如,对如下事例:,2019/6/10,50,喜鹊、麻雀、布谷鸟、乌鸦、鸡、鸭、鹅 可根据它们是否家养分为如下两类: 鸟=喜鹊,麻雀,布谷鸟,乌鸦 家禽=鸡,鸭,鹅,这里,“鸟”和“家禽”就是由分类得到的新概念,而且根据相应动物的特征还可得知: “鸟有羽毛、有翅膀、会飞、会叫、野生” “家禽有羽毛、有翅膀、不会飞、会叫、家养” 如果把它们的共同特性抽取出来,就可进一步形成“鸟类”的概念。,2019/6/10,51,2)机器发现机器发现是指从观察事例或经验数据中归纳出规律或规则的学习方法。 可分为: 经验发现 知识发现 前者是指从经验数据中发现规律和定律,后者是指从已观察
27、的事例中发现新的知识。,2019/6/10,52,示例学习和ID3 ,教学目的: 掌握示例学习的基本策略; 理解构造决策树法ID3; 主要内容: 示例学习的基本概念 3种示例学习策略: 逐步泛化的学习策略; 逐步特化的学习策略; 双向学习策略; 基于决策树的归纳学习方法ID3,2019/6/10,53,教学要求:掌握 主要内容: 理解例子空间和假设空间的概念及其关系; 理解泛化和特化的概念以及与搜索的关系; 掌握示例学习的三种基本策略。,示例学习,2019/6/10,54,示例学习任务: 从一系列示例出发: 正例; 反例; 生成一个反映这些示例本质的定义(概念描述): 覆盖所有的正例,而不包含
28、任何反例; 可用来指导对新例子的分类识别;,示例,概念描述,解描述,示例学习,2019/6/10,55,1、概念描述的搜索和获取 例子空间和假设空间 例子空间: 所有可能的正例、反例构成的空间; 假设空间(概念空间): 所有可能的假设(概念描述)构成的空间; 假设空间中每一假设都对应于例子空间中一个子集 子集中的例子均是该假设的例子;,假设空间,例子空间,假设A,假设B,示例学习,2019/6/10,56,1、概念描述的搜索和获取 假设的泛化和特化: D1对应例子集是D2对应例子集的子集; D2比D1泛化; D1比D2特化; 假设空间中假设间的泛化关系: 反对称: D2比D1泛化、且D1比D2
29、泛化,那么D1=D2; 可传递: D3比D2泛化、且D2比D1泛化,那么D3比D1泛化;,假设空间,假设D1,假设D2,例子空间,D2例子集,D1例子集,假设空间,假设D1,假设D2,示例学习,2019/6/10,57,1、概念描述的搜索和获取 例1:病态细胞的分类识别(找到病态细胞的概念) 每个细胞由2个细胞体组成; 每个细胞体具有3个属性胞核数(1-2),尾巴数(1-2)及染色状(浅或深); 细胞P1, P2, P3有病状X; N1, N2是正常细胞;,P1,+,P2,+,N1,-,P3,+,N2,-,示例学习,2019/6/10,58,1、概念描述的搜索和获取 例1:病态细胞的分类识别
30、细胞体3元组(核数、尾数、染色状); 细胞2个细胞体3元组组成的集合; 细胞P1表示为(2, 2, 深) (1, 1, 浅) 例子空间由P1,P2,P3,N1,N2组成; P1,P2,P3为正例; N1,N2为反例;,P1,+,P2,+,N1,-,P3,+,N2,-,学习任务 从例子空间中归纳出有病状X的细胞概念描述,示例学习,2019/6/10,59,1、概念描述的搜索和获取 例1:病态细胞的分类识别 假设空间表示为假设的集合; 假设不必给每个特性(属性)都指明应取值 : 假设a:(2, ?, ?) (?, 1, 深),表示: 如果: 细胞中一个细胞体有2个胞核; 另一个有1个尾巴,且染色是
31、深的; 则: 该细胞有病症X。 “?”指 相应的属性对病细胞的判断是无关紧要;,a,示例学习,2019/6/10,60,1、概念描述的搜索和获取 例1:病态细胞的分类识别 假设空间表示为假设的集合; 假设不必给每个特性(属性)都指明应取值 : 假设a:(2, ?, ?) (?, 1, 深)假设b: (2, ?, ?) (?, ?, 深) 覆盖更多的例子,a,b,特 化,泛 化,假设b比假设a泛化,假设a比假设b特化,示例学习,2019/6/10,61,完全的假设空间,底层假设 最特化(具体)的概念描述; 所有特性都给定特性值; 对应于例子空间中的一个例子;,顶层假设 最泛化的概念描述; 不指定
32、任何具体的特性值 ; 表示为(? ? ?),(? ? ?);,特 化,范 化,示例学习,2019/6/10,62,1、概念描述的搜索和获取 示例学习的过程(T.Mitchell, 1982 ): 在假设空间中搜索的过程。 学习过程中假设空间可以动态扩展;,假设空间,假设D1,假设D2,例子空间,D2例子集,D1例子集,获取、修正,指导、预测,示例学习,2019/6/10,63,1、概念描述的搜索和获取 假设空间中的搜索方法 特化搜索 从最泛化的假设(概念描述)出发; 每次取用一个新的例子,产生一些特化的描述; 直到产生出足够特化的解描述; 泛化搜索 从最特化的假设(例子空间中的一个正例)开始;
33、 每次取用一个新的例子,产生一些泛化的描述; 直到产生出足够泛化的解描述。,示例学习,2019/6/10,64,1、概念描述的搜索和获取 假设空间中的搜索方法 特化搜索 泛化搜索 大多数示例学习方法都采用这二种方法或这二个方法的结合。 任何的示例学习的过程都可以看成假设空间中的搜索过程,不同的搜索方式对应于不同的学习策略: 逐步泛化的学习策略自底向上的泛化搜索; 逐步特化的学习策略自顶向下的特化搜索; 双向学习策略双向搜索。,示例学习,2019/6/10,65,2、逐步泛化的学习策略 采用宽度优先、自底向上的泛化搜索方式; 基本策略: 从第一个正例出发,作为初始假设; 遇见正例就泛化某些假设以
34、保证假设的完全描述性(覆盖所有正例); 遇见反例则删去某些假设以保证假设的一致描述性(不覆盖所有反例); 直至得到一个既完全又一致的解描述(假设)为止; 解描述作为学习系统获得的新知识,满足给定例子集的概念定义。,示例学习,2019/6/10,66,2、逐步泛化的学习策略 采用宽度优先、自底向上的泛化搜索方式: 将正例P1作为初始假设H1 初始假设H1是最特化的假设; 只覆盖了一个正例P1 ;,P1,+,P2,+,N1,-,P3,+,N2,-,宽度优先,自底向上,示例学习,2019/6/10,67,2、逐步泛化的学习策略 采用宽度优先、自底向上的搜索方式: 取出下一个正例P2 由于初始假设H1
35、不能覆盖P2; 建立比H1泛化的假设, 使之能同时覆盖H1和P2;,初始假设H1,P2,+,相同特性(2,?,?),相同特性(1,?,?),相同特性(?,1,浅),相同特性(?,2,深),示例学习,2019/6/10,68,2、逐步泛化的学习策略 采用宽度优先、自底向上的搜索方式: 取出下一个正例P2 正例P2指导系统生成泛化的假设H2和H3; 采用“最低限度的泛化”的原则 新的假设刚好覆盖现有的“假设/例子”, 如,H2和H3刚好覆盖H1/P2;,P2,+,示例学习,2019/6/10,69,2、逐步泛化的学习策略 采用宽度优先、自底向上的搜索方式: 取出下一个反例N1 反例用来删除过于泛化
36、的假设; 假设H2覆盖了反例N1; 假设H2是过于泛化的假设,应该剪去;,细胞体1(2,?,?) 细胞体2(1,?,?),示例学习,2019/6/10,70,2、逐步泛化的学习策略 采用宽度优先、自底向上的搜索方式: 取出下一个正例P3 由于假设H3不能覆盖P3; 建立比H3泛化的假设, 使之能同时覆盖H3和P3;,假设H3,P3,+,相同特性(?,2,?),相同特性(?,1,?),示例学习,2019/6/10,71,2、逐步泛化的学习策略 采用宽度优先、自底向上的搜索方式: 取出下一个正例P3 由于假设H3不能覆盖P3; 建立比H3泛化的假设, 使之能同时覆盖H3和P3,假设H3,P3,+,
37、相同特性(?,?,浅),相同特性(?,?,深),示例学习,2019/6/10,72,2、逐步泛化的学习策略 采用宽度优先、自底向上的搜索方式: 取出下一个反例N2 反例用来删除过于泛化的假设; 假设H4覆盖了反例N2; 假设H4是过于泛化的假设,应该剪去; 假设H5不覆盖反例N1,N2。,细胞体1(?,2,?) 细胞体2(?,1,?),N2,-,示例学习,2019/6/10,73,P1,+,P2,+,N1,-,P3,+,N2,-,示例学习,2019/6/10,74,P1,+,P2,+,N1,-,P3,+,N2,-,假设H5 足够泛化的解描述,示例学习,2019/6/10,75,2、逐步泛化的学
38、习策略 符号说明: H:当前的假设集,初始值为第一个观察的正例; N:已观察到的反例集,初始值为空集; i:观察的下一个例子; 算法描述: IF i是正例 THEN 对每一个不覆盖i的假设hH, 用能覆盖i和h(假设/例子),且泛化程度又最低的假设(可以有多个)代替h; 移去H中能覆盖已往观察到的反例nN的假设(以保证一致性); ELSE/i是反例 把i加入到反例集N; 移去H中能覆盖i的假设; ,示例学习,2019/6/10,76,1、概念描述的搜索和获取 示例学习的过程(T.Mitchell, 1982 ): 在假设空间中搜索的过程。 假设空间中的搜索方法 泛化搜索 从最特化的假设(例子空
39、间中的一个正例)开始; 每次取用一个新的例子,产生一些泛化的描述; 直到产生出足够泛化的解描述。 特化搜索 从最泛化的假设(概念描述)出发; 每次取用一个新的例子,产生一些特化的描述; 直到产生出足够特化的解描述;,示例学习,2019/6/10,77,3、逐步特化的学习策略 “泛化策略”: 采用宽度优先、自底向上的搜索方式; “特化策略”: 采用宽度优先、自顶向下的搜索方式; 【相同点】 新例子的加入会导致新假设的增加和已存在假设的删除 ;,P1,+,N1,-,N2,-,P2,+,示例学习,2019/6/10,78,3、逐步特化的学习策略 正例和反例所起的作用与泛化策略相反: 反例生成一些特化
40、假设;* 采用保守的原则最低限度的特化:- 新的假设在覆盖已有正例的同时只是刚好能排斥反例; 正例剪裁过于特化的假设。,2019/6/10,79,3、逐步特化的学习策略 采用宽度优先、自顶向下的搜索方式; 最泛化的假设H1=(?,?,?), (?,?,?) 细胞简化成2个细胞体,不附有任何的属性; 取出第一个正例P1 H1正确地覆盖了正例P1,不必修改; 正例P1将放入正例集,备用;,初始假设H1,P1,+,示例学习,2019/6/10,80,3、逐步特化的学习策略 采用宽度优先、自顶向下的搜索方式; 取出下一个反例N1 初始假设H1过于泛化, 覆盖了这个反例N1 ; 假设H1必须特化,至少得
41、到特化假设H2、H3; 假设H2、H3排斥反例N1; 系统是依靠反例来生成一些特化假设; “最低限度的特化”保守的原则: 特化的假设在覆盖已有正例的 同时只是刚好能排斥反例。,N1,-,初始假设H1,假设H2,假设H3,P1,+,覆盖正例P1,示例学习,2019/6/10,81,3、逐步特化的学习策略 采用宽度优先、自顶向下的搜索方式; 取出下一个反例N2 假设H2、H3过于泛化, 覆盖了这个反例N2 ; 假设H2、H3必须特化;,初始假设H1,假设H2,假设H3,P1,+,-,N2,假设H4,假设H5,示例学习,2019/6/10,82,3、逐步特化的学习策略 采用宽度优先、自顶向下的搜索方
42、式; 取出下一个正例P2 正例P2排斥了假设H4;,初始假设H1,假设H2,假设H3,假设H4,假设H5,P2,+,假设H5是最后得到的概念描述解描述,示例学习,2019/6/10,83,3、逐步特化的学习策略 符号说明: H:当前的假设集,初始值为最泛化的假设; P:已观察到的正例集,初始值为空集; i:观察的下一个例子; 算法描述: IF i是反例THEN 对每一个覆盖i的假设hH, 用可被h覆盖但排斥i,且特化程度最低的假设代替h; 移去H中不覆盖已往观察到的正例pP的假设; ELSE/i是正例 把i加入到正例集P; 移去H中所有不覆盖i的假设; ,示例学习,2019/6/10,84,泛
43、化策略: 采用自底向上的搜索假设空间的方式; 从第一个正例表示的最特化的假设开始; 系统依靠正例生成泛化的假设; 反例用来剪裁过于泛化的假设; 解描述泛化程度最低; 特化策略: 采用自顶向下的搜索假设空间的方式; 从最泛化的假设开始; 系统依靠反例生成特化的假设; 正例用来剪裁过于特化的假设; 解描述特化程度最低;,如果给出充分多的例子, 那么二者的结果就可能会是相同的概念描述。,示例学习-泛化特化比较,2019/6/10,85,4、双向学习策略 结合“泛化策略”和“特化策略”, 同时从2个方向搜索假设空间。 版本空间法(Version Space) 假设集S泛化搜索的假设空间; 遇见一个新的
44、正例时,如未被集包含,则在该集中进行泛化搜索; 假设集G特化搜索的假设空间; 一个新的反例产生时,如被集包含,则在该集中进行特化搜索;,示例学习,2019/6/10,86,完全的假设空间,假设集S S不能覆盖新的正例i 则在S中进行泛化搜索,假设集G G能覆盖新的反例i , 则在G中进行特化搜索,特 化 搜 索,范 化 搜 索,当S 、 G合一时,双向学习结束,示例学习,2019/6/10,87,4、双向学习策略 结合“泛化策略”和“特化策略”, 同时从2个方向搜索假设空间。 版本空间法(Version Space) 假设集S泛化搜索的假设空间; 期望获取的最终解描述下界; 假设集G特化搜索的
45、假设空间; 期望获取的最终解描述上界;,示例学习,2019/6/10,88,输入第一个正例P,初始化S=P,初始化G=最泛化的假设,示例i没有考察,示例i为正例,保留G中覆盖i的假设,S中不覆盖i的假设泛化, 并且泛化的假设能被G所蕴涵,删除S中蕴涵其他假设的假设,是,保留S中不覆盖i的假设,G中覆盖i的假设特化, 并且特化的假设能蕴涵S中相应假设,删除G中被其他假设蕴涵的假设,否,版本空间法 (Version Space),蕴涵其他假设的假设 泛化程度并非最低的假设 (最低泛化的原则),被其他假设蕴涵的假设 特化程度并非最低的假设 (最低特化的原则),2019/6/10,89,P1,+,P2
46、,+,N1,-,P3,+,N2,-,S1,G1,输入第一个正例P1,2019/6/10,90,P2,+,S1,G1,正例P2,保留G中覆盖i的假设,S中不覆盖i的假设泛化, 并且泛化的假设能被G所蕴涵,删除S中蕴涵其他假设的假设,S2,G2,2019/6/10,91,反例N1,S2,G2,N1,保留S中不覆盖i的假设,G中覆盖i的假设特化, 并且特化的假设能蕴涵S中相应假设,删除G中可以被其他假设蕴含的假设,G3,S3,S3和G3中的假设构成了满足已知正、反例的概念描述,进一步的“泛化”、“特化”搜索只能在S3和G3之间进行,示例足够多时,S3和G3就会合而为一,2019/6/10,92,4、
47、双向学习策略 版本空间法(Version Space)优点: 系统不必保留正例(特化策略)和反例(泛化策略): S蕴涵了已取用的所有正例,删除G中过于特化的假设; G蕴涵了对所有已取用反例的排斥,删除S中过于泛化的假设。 系统知道何时推理任务完成; 当S 、 G合一时,双向学习结束; “泛化”和“特化”策略只能搜索完所有示例;,示例学习,2019/6/10,93,6.3 基于决策树的归纳学习方法,教学要求:理解 主要内容: 掌握决策树的概念; 理解决策树的构造方法。,2019/6/10,94,决策树学习归纳学习方法的一个变种; 任务:从大的已经分类的例子集,归纳分类概念; 例子表示为一组“属性-值”; 每一个例子用相同的一组属性来表示; 每一个属性又有自身的属性值集;,6.3 基于决策树的归纳学习方法,2019/6/10,95,2019/6/10,96,决策树学习归纳学习方法的一个变种; 任务:从大的已经分类的例子集,归纳分类概念; 例子表示为一组“属性-值”; 每一个例子用相同的一组属性来表示; 每一个属性又有自身的属性值集; ID3算法,昆兰(J.R.Quinlan,1986); 输入: 描述已知类别例子的列表; 例子由预先定义的“属性-值”对来表示; 结果: 决策树可以正确地区分所有给定例子的类别;,