1、河北工业大学硕士学位论文基于强化学习和视觉导航的移动机器人控制姓名:崔月盟申请学位级别:硕士专业:机械电子工程指导教师:岳宏20050101兰三塑丝兰塑塑堡耋量竺塑墼塑堡兰垒丝型,“”)(),:也,:,:,河北工业大学硕士学位论文第一章绪论引言机器人自从问世以来,目前己被公 认为是一种现代科学技术的典型产物。但是,无论是作为一种自动化机械已经在现代化生产中实际使用的机器人, 还是作为人工智能学科的一个研究对象正处于实验阶段中的机器人,都难以符合 “机器人”这个名词给人的印象。机器人其 实是一种机器,它们既不具备人类完美的器官和功能,也不具有而且也不一定具有现代人的外表(甚至相反,有些机器人的形
2、态倒类似于某些动物),现在,机器人的本 领还是非常有限的。机器人的产生充分说明了人类对于先进生产工具的创造性想象和勇敢追求。人们期待着诞生一种通用、柔顺、灵活的自动机械,它与单能的传统机器不同,它能模仿人器官的功能,从事那些只有人才能很好完成的工作。于是,人们这种美好的愿望给科学技术的研究提出了一个深入的课题一一用工程的方法实现人体所特有的动作机能,以及完成这些动作所必要的智能。机器人的研究、制造和应用,正受到许多国家的广泛重视,是一个国家科技水平和经济实力的象征。近几十年来,机器人技术的发展极为迅猛,各种用途的机器人纷纷面世,并获得广泛应用。计算机控制的机器人由于具有高度的可靠性、灵活性、快
3、速的反应能力以及巨大的信息存储和处理能力,赢得了人们的普遍欢迎。它能够连续地、不知疲倦地完成艰苦繁重的劳动,减轻工人的劳动强度,极大地提高劳动效率;它的适 应能力很强,能 够在水下、太空、真空、 辐射以及剧毒等危险环境中工作,使人类的生命安全和健康得到保障;在 现代化的工业生产中,机器人能 够适应现代的小批量生产方式。移动机器人是机器人学的一个重要分支,其研究工作始于世纪年代末期。斯垣福研究院()的和等人在年至年中研制出了取名为的自主移动机器人,目的是研究应用人工智自技 术在复杂环境下机器人系统的自主推理、 规划和控制。与此同时,最早的操纵式步行机器人也研制成功,从而开始了 对 机器人步行机构
4、方面的研究,以解决机器人在不平整地域内的运动问题。设计并研制出了多足步行机器人,其中最著名的是名为的步行机器人”。世纪年代末,随着 计算机的应用和传感技 术的发展,移动机器人研究又出现了新的高潮,特 别是世纪年代中期,设计和制造机器人的浪潮席卷全世界,一大批世界著名的公司开始研制移动机器人平台, 这些移 动机器人主要作为大学实验室及研究机构的移动机器人实验平台,从而促 进了机器人学多种研究方向的出现”。世纪年代以后,移动机器人正在成为应用晟为广泛的机器人,它 们已经从单纯工业应用发展到执行太空任务、探 险、搜索与援救、勘测与绘图、深海打捞等领域“。除此之外,移动机器人也已经在博物馆、医院以及娱
5、乐场所”“广泛应用,它们正在各个领域成为人类的得力助手,甚至从事人类不能或不便从事的工作。移动机器人应用领域的主要难题包括环境识别、障碍躲避、路径选择、机器人定位、任 务规划、动作执行以及系统的控制与诊断等。移 动机器人是一个集环境感知、 动态决策与规划、行为控制与基于强化学习和视觉导航的移动机器人控制执行等多种功能于一体的综合系统。移动机器人中相对固定式的机器人、机械手,其应用范围和功能都大为拓展和提高,因而在工 业、国防、服务行业得到,泛的应用, 对其研究也越来越受到更多的重视。卜移动机器人控制技术的研究现状现有移动机器人存在的主要问题是缺乏灵活性和自主性。典型的例子是大多数机器人均是在高
6、度结构化的环境下执行预先规定的动作序列,在新的 环境下或遇到意外情况时,不能很好地完成任务,引发问题的主要原因是现实环 境是非结构化的,存在不确定性。具体体现在:关于环境的先验知识通常是不全面的、不确定的和近似的;感知器得到的信息通常是不可靠的,存在着噪声和测量误差;现实的环境通常具有复杂和不可预测的动态特性,如物体的移动和环境的改变等;控制作用并非完全可靠,如车轮打滑等等 ”“。为了解决上述存在的问题,传统 的解决办法是精心设计机器人的机械的传感装置,或 对环境作详细的规定和构造(如设置地标或磁信号等),或兼而有之,但带来的问题是提高了成本、降低了机器人的自主性,难以适用于任意的 环境。因此
7、,移动机器人控制的研究重点,目前已集中在设计一种良好的控制结构,能克服环境的不确定性,可靠地完成复杂 任务,且成本低, 鲁棒性好。 问题的关键在于这种结构应具有主动学习和自适应的能力。卜传统控制方法移动机器人的传统控制体系结构源自基于认知的人工智能()模型,在模型中,智能任务由运行于符号模型之上的推理过程来实现,它强调带有环境模型或地图的中央规划器是机器人智能不可缺少的组成都份,而且该 模型必须是准确的、一致的,因此,传感器信息的校验具有与模型本身同等的重要性。并且传统方法遵循的是从感知到 动作的串行功能分解控制结构,是一种典型的自顶向下构建系统的方法。如图 所示, 动作不是传感器数据直接作用
8、的结果,而是经历一系列从感知、建模到规划处理阶段之后 产生的结果。 这类系统的特点是具有完成用 户明确描述的特定任务的能力,在给定目标和约束条件之下,规划模块根据环境的局部模型和已有全局 环境模型决定下一步的行动,并一次完成整个任 务。全局 环境模型的建立是根据用 户对环境中已知对象模型的了解及其相互关系的推测进行的,还 要根据传感器模型自主构造。卜基于行 为控制方法基于行为的系统,又称为反应系 统,复 杂任务被分解成为一系列相 对简单的具体特定行为,这些行为均基于传感器信息并针对综合目标的一个方面进行控制。行为式控制结构如图所示,它将机器人行为的感知、规划、任意行程封装成一个行为模块,强调具
9、体化和场景化概念,例如将机器人的行为分为停车、跟踪、漫游、避障等行为模块,每一个行为实现传感器信息与机器人动作间的一种映射。某一时刻,只有一种行为控制车体。机器人的最终行为由各个行为模块之间的竞争实现。基于行为的机器人控制体系 结构合成不同水平的能力。从物理结构上来说,即系统中存在着多个并行控制回路,构成各种基本行为, 传感数据根据需求以一种并行方式 给出,各种行为通过协调配合后作用于驱动装置,产生一些有目的的 动作,由于 许多行 为仅设计成完成一个简单的特殊任务,且所占内存不大,因此,基于行为的方法可以产生快速控制。典型控制结构的代表是“”的包容式结构。基于强化学习和视觉导航的移动机器人榨制
10、执行等多种功能于一体的综台系统。移动机器人中相对固定式的机器人、机械手,其应用范围和功目都大为拓展和提高,困在工业、国防、服 务行惶得到广泛的麻川,对萁研究也越来越受到更多的重视。卜移动机器人控制技术的研究现状现有移动机器人存在的主要问题是缺乏灵活性和自主性。典型的例子是大多数棚器八均是在高度结构化的坏境、执行预先蜘定的 动作序列在新的 环境下或遇到意外情况日、,不能很好地完成任务,引发问题的土要原因是现实环 境是非结构化的,存在不确定性。具体体现在:关丁环境的先骑知识通常是不全面的、不确定的和近似的;感知器得到的信息通常是不叫靠的,存在着噪声和测量误差;现实的环境通常具有复杂和不叫预测的动态
11、特性如物体的移动和环境的改变等;控制作用并非完全可靠,如车轮打滑等等 ”“。为了解决上述存在的问题,传统 的解决办法是精心设计机器人的机械的传感装置或 对环境作详细的规定和构造(如设置地标或磁信号等),或兼而有之,但带来的问题是提高了成本、降低了机器人的自主性,难以适用于任意的 环境。因此,移动机器人控制的研究重点,目前已集中在、吐计一种良好的控制结构,能克服环境的不确定性,可靠地完成复杂 任务,且成本低, 鲁棒性好。 问题的关键在于这种结构应具有主动学习和自适应的能力。卜传统控制方法移动机器人的传统控制体系结构源自基于认知的人工智能()模型,在模型中,智能任务由运行下符号模型之上的推理过程来
12、实现,它强调带有环境模型或地图的中央规划器是机器人智能不可缺少的组成部份,而且该 模型必须是准确的、一致的,因此,传感器信息的校验具有与模型奉身同等的重要性。并且传统方法遵循的足从感知到 动作的串行功能分解控制结构,是一种典型的白顶向下构建系统的方法。如图 所示, 动作不是传感器数据直接作用的结果,而是经历一系列从感知、建模到规划处理阶段之后 产生的结果。 这类系统的特点是具有完成用 户明确描述的特定任务的能力,在培定目标和约柬条件之下,规划模块根据环境的局部模型和已有全局 环境模型决定下一步的行动,并一次完成整个任 务。全局 环境模型的建立是根据用 户对环境中已知对象模型的了解及其相互关系的
13、推测进行的,还 要根据传感器模型自主构造。基于行为控制方法基于行为的系统,叉称为反应系 统,复 杂任务被分解成为一系列相 对简单的更体特定行为,这耻行为均基于传感器信息并针对综合目标的一个方面进行控制。行为式控制结构如图所示,它将机器人行为的感知、规划、任意行程封装成一个行为模块,强调具体化和场景化概念,例如将机器人的行为分为停车、跟踪、漫游、避障等行为模块,每一个行为实现传感器信息与机器人动作问的一种映射。某一时刻,只有一种行为控制车体。机器人的最终行为由各个行为模块之间的竞争实现。基于行为的机器人控制体系 结构合成不同水平的能力。从物理结构上来说,即系统中存在着多个并行控制回路,构成各种基
14、本行为, 传感数据根据需求以一种并行方式 给出,各种行为通过协调配合后作用于驱动装置,产生一些有目的的 动作,由于 许多行 为仅设计成完成一个简单的特殊任务,且所占内存不大,因此,基于行为的方法可以产生快速控制。典型控制结构的代表是“”的包且所占内存不大,因此,基于行为的方法可以产生快速控制。典型控制结构的代表是“”的包宿式结构。基于强化学习和视觉导航的移动机器人控制执行等多种功能于一体的综合系统。移动机器人中相对固定式的机器人、机械手,其应用范围和功能都大为拓展和提高,因而在工 业、国防、服务行业得到,泛的应用, 对其研究也越来越受到更多的重视。卜移动机器人控制技术的研究现状现有移动机器人存
15、在的主要问题是缺乏灵活性和自主性。典型的例子是大多数机器人均是在高度结构化的环境下执行预先规定的动作序列,在新的 环境下或遇到意外情况时,不能很好地完成任务,引发问题的主要原因是现实环 境是非结构化的,存在不确定性。具体体现在:关于环境的先验知识通常是不全面的、不确定的和近似的;感知器得到的信息通常是不可靠的,存在着噪声和测量误差;现实的环境通常具有复杂和不可预测的动态特性,如物体的移动和环境的改变等;控制作用并非完全可靠,如车轮打滑等等 ”“。为了解决上述存在的问题,传统 的解决办法是精心设计机器人的机械的传感装置,或 对环境作详细的规定和构造(如设置地标或磁信号等),或兼而有之,但带来的问
16、题是提高了成本、降低了机器人的自主性,难以适用于任意的 环境。因此,移动机器人控制的研究重点,目前已集中在设计一种良好的控制结构,能克服环境的不确定性,可靠地完成复杂 任务,且成本低, 鲁棒性好。 问题的关键在于这种结构应具有主动学习和自适应的能力。卜传统控制方法移动机器人的传统控制体系结构源自基于认知的人工智能()模型,在模型中,智能任务由运行于符号模型之上的推理过程来实现,它强调带有环境模型或地图的中央规划器是机器人智能不可缺少的组成都份,而且该 模型必须是准确的、一致的,因此,传感器信息的校验具有与模型本身同等的重要性。并且传统方法遵循的是从感知到 动作的串行功能分解控制结构,是一种典型
17、的自顶向下构建系统的方法。如图 所示, 动作不是传感器数据直接作用的结果,而是经历一系列从感知、建模到规划处理阶段之后 产生的结果。 这类系统的特点是具有完成用 户明确描述的特定任务的能力,在给定目标和约束条件之下,规划模块根据环境的局部模型和已有全局 环境模型决定下一步的行动,并一次完成整个任 务。全局 环境模型的建立是根据用 户对环境中已知对象模型的了解及其相互关系的推测进行的,还 要根据传感器模型自主构造。卜基于行 为控制方法基于行为的系统,又称为反应系 统,复 杂任务被分解成为一系列相 对简单的具体特定行为,这些行为均基于传感器信息并针对综合目标的一个方面进行控制。行为式控制结构如图所
18、示,它将机器人行为的感知、规划、任意行程封装成一个行为模块,强调具体化和场景化概念,例如将机器人的行为分为停车、跟踪、漫游、避障等行为模块,每一个行为实现传感器信息与机器人动作间的一种映射。某一时刻,只有一种行为控制车体。机器人的最终行为由各个行为模块之间的竞争实现。基于行为的机器人控制体系 结构合成不同水平的能力。从物理结构上来说,即系统中存在着多个并行控制回路,构成各种基本行为, 传感数据根据需求以一种并行方式 给出,各种行为通过协调配合后作用于驱动装置,产生一些有目的的 动作,由于 许多行 为仅设计成完成一个简单的特殊任务,且所占内存不大,因此,基于行为的方法可以产生快速控制。典型控制结
19、构的代表是“”的包容式结构。河北工业大学硕士学位论文图串行功能体系结构,图行为式控制结构卜两者的 优缺点传统控制方法的优点是系统构造层次清晰、模 块功能易执行,并且较容易实现高层次的智能行为,缺点是系统的控制行为都必须经过感知一建模规划执行等各个模块,延时长, 实时性差;另外,由于各个模块串行连接,其中任一个模块的故障直接影响整个系 统的功能,在面缶真 实世界的复杂性和不确定性时,其实时 性、 鲁棒性和可行性都面临强 有力的挑战。行为式控制结构的优点是易于实现实时控制,系统可靠性比 较高,并且在真 实世界里表 现较高的鲁棒性和实时性;缺点是由于各个行为模块之间是松散连接,难于实现高层次的智能控
20、制。卜国外对基于行为控制方法的研究国外对基于行为的控制方法最早是提出的,提出了一种包容结构,也就是基于行为的反应式控制;把基于行为控制方法用在行星表面行走的小机器人”“:描述了一个分层抽象行为结构,把人工智能和基于行 为控制相结合“”;提出了一种基于行为的控制方法,并把这种方法应用在机器人 队形保持方面”;把模糊逻辑和强化学习用在机器人的行为控制当中,从而实现 了陆上移动机器人的导航系统;把神经网络和强化学习方式用在机器人行为控制当中,从而使机器人通 过学习能到达室内环境中的目标“”。卜国内对基于行为控制方法的研究基于强化学习和视觉导航的移动机器人控制国内对基于行为控制方法的研究有了一定程度的
21、发展,把模糊逻辑用在了未知环境的移动机器人行为控制中,克服了人工 势场法用于机器人行为控制的缺点”。;董 胜龙把机器人的运动模型和基于行为的算法相结合,从而 设计出了用于编队控制的分布式控制系统:简伟程把演变算法和基于行为的控制技术相结合,从而提出演化移 动机器人技术;杨争把模糊逻辑推理应用到自主移动机器人的行为控制系统中,从而开 发具有自主导航功能的移动机器人;杨玉君把增强学习方式应用到群体行为进化方面,从而提出了基于行 为的自主微小移动机器人智能控制结构:张汝波把强化学习算法和神经网络算法应用到智能机器人局部路径规划中,而提高了机器人对环境的适应能力。卜关于移动机器人的视觉和视觉导航移动机
22、器人视觉 概述视觉是一个古老的研究课题,到了上个世 纪年代末,和年代初,的教授创立了视觉计算理论,使视觉的研究前 进了一大步。他首先解决了研究视觉理论的策略问题,指出视觉是一个复杂的信息处理问题,要完整的理解 视觉,必 须从三个不同的 层次上对它进行解释:第一个层次是信息处理问题的计算理论,在这个层次上所研究的是对什么信息进行计算和为什么要进行这些计算;第二个层次是算法,它研究的是如何 进行所要求的计算,也就是要涉及特定的算法;第三个层次是执行,它研究完成某一特定算法的具体机构。从计算处理这个层次来看,教授提出视觉信息处理必须用三级内部表像加以描述。 这三级表像是:要像素(图像的表象),维图(
23、可见表面的表像)和三维模型表像(用于识别的三维物体形状表像)”“。机器视觉”“技 术是近几十年来发展的一门新兴技术。机器视觉是研究使机器具有类似于生物视觉部分功能的一门新学科。因此,在工业过程质量检测、监控、非接触位置与几何测量、 视觉伺服控制、机器人自主行为规划、机器人遥操作、透视成像、反求工程、遥视等研究与工业领域中,视觉有着不可替代的作用和巨大的 发展前景。机器人视觉研究是机器视觉研究的一部分。正如人的眼睛一样,机器人 视觉系统是机器人感知局部环境的重要“器官”,同时 ,依此感知的 环境信息实现对 机器人的导航。对于机器人视觉技术,我们的主要任务是为机器人构建视觉系统。如同人 类视觉系统
24、一样,机器人 视觉系统将赋予机器人一种高级感觉功能。使得机器人能以智能和灵活的方式对其周围的环境做出反应。一个典型的机器人视觉系统的总体结构,如图所示,由于应用工程对机器人不断提出更高的要求,机器人视觉将越来越复杂。机器人视觉可以看成从三 维环境的图像中抽取、描述和解释信息的过程,它可以划分为六个主要部分:感觉部分;预处理部分:分割部分;描述部分;识别部分;解释部分。再根据实现上述各种过程所涉及的方法和技 术的复杂性,可分 为三个处理层次:低层视觉处理、中层视觉处理和高层视觉处 理。 虽然各个层次间没有明确的界限,但是,这种划分对于将机器人视觉系统的固有处理过程加以分类提供了一种有用的结构。视
25、觉信息处理是移动机器人研究中的一项关键技术。视觉对移动机器人起到导航作用。移 动机器人视觉信息主要是指二维彩色摄像机信息,在有些系统中还包括三维激光雷达采集的信息。视觉信息能否正确、实时地处理直接关系到移 动机器人行驶速度、路径跟踪以及 对障碍物的避碰,对移动机器人的实时性和鲁棒性具有决定性的作用。道路 检测和障碍物检测是视觉信息处理中最重河北工业大学硕士学位论文要的过程,也是最困难的过程。视觉信息的获取是局部路径规 划和导航的基础,道路检测的成功与否决定了机器人能否正确识别当前的道路环境,能否正确做出局部路径规划并执行路径跟踪。图机器人视觉的组成一视觉导航移动机器人有多种导航方式,视觉导 航
26、是移动机器人导航方式中的种,根据环境信息的完整程度、导航指示信号类型、导航地域等因素的不同,可以分为基于地图导航、基于路标导航、基于视觉导航、基于感知器导航等。视觉导航方式具有信号探测范围宽、获取信息完整等优点,是未来移动机器人导航的一个主要发展方向。在视觉导航系统中,目前应用最多的是在移动机器人上安装 摄像机的基于局部视觉的导航方式。这种导航方式,可使所有的计算设备和传感器都装载 在机器人上,图像识别、路径规划等高层决策都由车载计算机完成。 现在也有很多机器人系统采用()匿像 传感器。“”。传感器在一个硅衬底上配置光敏元件和电荷转移器件,通过电荷的依次转移,将多个像素的信息分时、顺序地取出来
27、,分为一维和二维两种传感器。视觉系统在导航研究中主要起到环境探测和辨识的作用。 环境的探测包括障碍探测和路标探测,而辨识主要是路标的识别。视觉导 航的优点在于其探测的范围广,缺点是 难以区分将要探测的目标与背景。为了将障碍与背景分开,所需图像的计算量很大,导致系统的实时性较差,可采用一些特殊图像处理方法来解决以上问题。视觉导航研究由于受到现有计算设备运算速度和存储容量的限制而发展较慢,但随着计算机图像 处理能力和技术的提高,加之视觉导航具有信号探测范围宽、目标信息完整等优势,在图像处理速度得到解决之后,视觉导航仍将是主要 导航方式。课题研究的意 义基于强化学习和视觉导航的移动机器人控制机器人的
28、应用越来越广泛,几乎渗透到所有领域,机器人的 应 用想要深入到社会各个方面,必须拥有较高的智能,这样它才能在真 实的物理环境中自丰地执行特定的任务而无需人的干预。以往对机器人的研究大多是在已知、 结构化环境中进行的,也就是说研究人员对于机器人的自身以及机器人的工作环境都有精确的先验知识。然而,实际环境是动态的,充满了不确定性,机器人所得到的信号充满了误差和不一致性。在 实际应用中,机器人的工作环境是出于两种极端情况之间的,即环境信息部分未知。例如自动化 车间, 方面环境的整体布局已知(如 车问结构、固定设备),另一方面环境中存在着不可预知的障碍物(如其它机器人、临时堆放的物品)。因此传统的基于
29、感知一建模一规划一执行的串联机构的人工智能方法,在面对真实世界的复杂性和不确定性时,其实时性、鲁棒性和可行性都面临强有力的挑战,使其在 实际环境中的应用上遇到了难以逾越的障碍。因此我们提出了机器人的基于行为控制,并 结合一些学习技术来增强机器人的智能,提高机器人自学 习能力,使它更好的适合未知环境,能找到一个最佳路径到达预定目 标。学习控制分为监控学习和无监控学习。监控学习是在“导师”的监督、 评价下进行学习,而无监控学习(自学习)过程只与环境交换信息,通 过观测和试验进行学习(可以与自校正控制器类比)。因此,自学习系统必须在学习过 程中积累经验,并且需要在不同情况(模式)下积累不同经验。本课
30、题主要采用强化学习来实现机器人的导航,强化学习(,又称再励学习, 评价学习)是一种重要的机器学习方法,在智能控制、机器人及分析预测等领域有许多应用。“。卜课题来源及主要研究内容卜题目来源本课题是中国科学院沈阳自动化研究所机器人学重点实验室资助下的专项研究,是“基于视觉感知机器人行为控制技术研究”的部分研究。卜主要研究内容结台当前移动机器人的研究现状,为了使移动机器人在一个不确定和复杂的环境下工作,使机器人通过自学习到达预定的目标。也就是用学 习技术增强机器人的智能,提高机器人自学习能力。本课题主要研究的内容如下:研究控胄策略。设计一个移动机器人的总体控制策略,全局规划器和局部规划器,通过强化学
31、习和基于行为的控制相结合,利用距离 传感器和摄像机获得的信息, 实现机器人的自治能力,从而提高机器人的智能,使机器人更好的适应动态环境和未知环境。研究学习算法。本文用到的学 习算法主要是强化学习算法,使用强化学习算法使移动机器人实现避障和路径规划。在强化算法当中我 们主要用学习算法来实现,并且主要通 过神经网络来实现学习算法。研究移动机器人的 远程监控策略。通过对机器人的远程监 控,可以实时控制移动机器人在复杂环境中的运动,可以避免在突 变的环境中对移动机器人产生的损坏。研究图像处理器。 设计一个图像处理器,通过图像采集卡,对采集的图像进行处理,最后主要能实现图像的匹配,主要用十来实现各种图像
32、处理算法。研究摄像头的运 动。设计一个具有俯仰摇摆式动态视觉装置,使其能够在更广的视野内获取信息,并与距离传感器所获得的信息融合来指 导机器人动作。主要设计包括两方面:一个是目标在羊见野内摄像头的运动;另一个,是目 标不在视野内摄像头的运动。河北工业大学硕士学位论文研究视觉定位。分析与探讨新的 视觉定位方法, 应用此方法来 测出移动机器人与目标物体之问相对位置,使移动机器人根据所 测定的距离做出相应的行为反映。在研制移动机器人上进行试验和调试。基于强化学习和视觉导航的移动机器人控制第二章基于强化学习的移动机器人控制策略一引言咀往对机器人的研究大多是在已知、 结构化环境中进行的,也就是说研究人员
33、对于机器人的自身以及机器人的工作环境都有精确的先验知识。但大多数情况下要求机器人在未知的环境下工作,因此,应用传统的方法很难使移 动机器人正常工作。最近的研究改变了机器人传统的设计方法,更加注重机器人的适应性。许多研究不注重 对环境知识完备性的要求,让机器人在完全未知环境下运行。通过机器人自身对环境的感知,来建立环境的模型,并且具有自恢复能力。如果机器人缺少关于自身及环境知识的话,那么学 习就是不可避免的。 “学习” 这一术语指的是机器人通过试验、观察和推测来更新知识的能力。机器人只有通 过不断的学习,才能完善自身的适应能力:依靠与环境不断的交互来获得知识。通过反复 调整环境模型及自身的模型,
34、最终才能学会在未知环境中运行。这种观点实际上就是行为主义的思想。行为主义者认为,设计智能机器人的有效途径不能像传统的人工智能那样,完全基于符号推理,用自上而下的方式,应类似生物体进化那样,采用自下而上方式,以感觉一动作为基础,在与 环境的交互中学习”。的开创性工作引入了基于行为的反应式控制,强调具体化和场景化概念。他的方法对基于建模、逻辑推理和集中处理的 传统人工智能产生了巨大的冲击。 虽然基于行为的自主机器人在真实世界里表现出较高的鲁棒性和实时性,但当任 务和环境变得复杂时,要完全依靠程序 员的手工编程实现其基本行为的设计和组织工作,就 变得非常繁重,甚至是不可能的。在这个背景下,近年来,具
35、有自学习能力的机器人成为了一个新的研究热点。这个研究方向的一个关键问题是用学习技术增强机器人的智能,也就是其自己解决问题的能力。在 诸多学习 方法中,强化学习方法是得到广泛关注的一种方法。本课题主要用强 化学习来实现机器人的避障和路径规划。移动机器人控制策略核心一 强化学习算法强化学习算法的概述强化学习()一词来自于行为心理学, 这一理论把行为学习看成是反复试验的过程,从而把环境状态 映射成相应的动作。 “。它是人工智能领域中既古老又崭新的课题,其研究历史可粗略地划分为两个阶段;第一阶段是世纪年代至年代,可以称为强化学习的形成阶段:第二阶段是年代以后,可以称为强化学习的发展阶段。强化学习是一种
36、重要的机器学习方法,它是决策者在与复 杂不确定环境交互作用时寻找最小耗费费用的方法,起源于人工智能(:)领域的试凑()学习,最早对试凑学习研究的是 “”和 【“,试凑学习具有两个晟重要的特征:第一,它是选择性的,而不是指导性的:第二,它是有联想的,即选择得到的结果是针对特定情形的。强化学习在智能控制、机器人及分析预测等领 域有许多应用。但在 传统的机器学 习分类中没有提到过强化学习。而在连接主义学习中,把学习算法分 为三种类型,即非 监督学 习()、监督学河北工业大学硕士学位论文习()和强化学习。所谓强化学习就是智能系统 从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同
37、于连接主义学习中的监督学习,主要表 现在教师信号上,强化学习是由环境提供的 强化信号对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统()女何去产生正确的动作。由于外部 环境提供的信息很少,必须靠自身的经历进行学习。通过这种方式,在彳亍动评价的环境中获得知识,改进行动方案以适应环境。强化学习不同于监督学习,在监 督学习中, 对每次输入而言,相应的期望输出是知道的,即学习系统每次都知道它的实际输出与期望输出的差值。然后通过真实输出和参考输出的差值来修改参数。在强化学习当中接收的信号是对一个行为的评价,这个评价可能是正、负或者零。这个信号表示不用告诉系统怎么做,而是系 统自己决定
38、做什么。智能体()用这个信号决定到达目标的策略。这两个方法之间的另一个差别是强化学习基本上是在线学习,因为智能体要修改状态的目的是为了完成任务,所以智能体要跟着一个策略完成联系几个动作。也就是 说,要想让智能体实现我们的目的,必须决定最大化将来回 报的策略。图是强化学习的一种结构模型,强化算法如下所说:()在每个离散时间步,智能体感知到当前状态(),()在这个状态它选择可能动作中的一个动作(,()给出一个强化信号(,并产生一个新的后 继状态球),()(一什,()如果信号的状态是最终的状态,那么停止运 动,如果不是则返回()步。是一个可感知的环境状态的集合,是一个可执行动作的集合。强化信号(是在
39、状态(选择动作(的结果。图智能体和环境之间相互作用的模型强化学习的核心是为了寻求一个最优策略,最 优策略就是系列最大回报的活动。通常存在两种方法计算最优策略”:第一种是策略重复,直接 对策略进行操作;第二种是值重复, 寻找最优策略值函数,值重复结构如图,所示。这两种方法分别给出了专门的算法。近年来,强化学习的理论及其应 用研究正日益受到重视,关于强化学习的课题得到了美国国防部、美国国家科学基金及国家青年科学基金以及美国海军、空军研究办公室的资助。另外,德国、韩国、澳大利亚等国的学者都在开展有关 强化学习的理论和应用研究”。 强化学习最适合、应用最多的场合,莫过于机器人领域。近年来国际上兴起了把强化学 习应用到智能机器人领域的研究”基于强化学习和视觉导航的移动机器人控制强化信号图值重复结构强化函数强化函数又叫奖励和惩罚函数,一般存在几种 类型的强化函数,通常把它分成三大类:第一类是最短路径问题,就是除希望状 态之外,其他所有状 态条件下的 强化函