机器人足球仿真比赛中多智能体系统的构建.doc-道客多多

资源描述

1、浙江大学硕士学位论文机器人足球仿真比赛中多智能体系统的构建姓名：郭叶军申请学位级别：硕士专业：模式识别与智能系统指导教师：吴铁军 20040201摘要（此页留空），】，（），：，：一竖坚一（）（）（）（、，： ”。“。“致谢似水流年，弹指一念问，已到毕业时。川顾读研近三年来，思绪万，感念种种，凝于笔端，不敢落纸，唯恐词不达意，谨借此机会致以深深的谢意！感谢我的导师吴铁军教授的亲切关怀和悉心指导。吴老师敏锐的学术洞察力、渊博的知识、勇于开拓创新的胆识、严谨的治学态度和忘我的工作精神都给我科深刻的印象，使我受益匪浅，激励我努力追求人生事业的成功，是我终生学习的典范！在此论文即将完成

2、之际，谨向吴老师致以崇高的敬意和衷心的感谢！感谢熊蓉老师给予的直接帮助和大量指导。熊老师是浙江大学机器人足球项同的负责人，正是她的支持和信任爿允许我组建了仿真比赛研究小组并先期经历了时间的摸索，在此表示诚挚的谢意！熊老师踏实细致、忘我的工作精神是我学习的榜样。感讶浙江大学工业控肯技术国家重点实验室的资助，得以组队远赴意大利参加年机器人足球世界杯比赛及学术研讨会（）。感谢戴连奎老师、杜树新老师对我的关心和帮助，感谢李艳君老师、彭冬亮、王梅、姚远和庄慧忠，在和你们共同工作的日子里，使我获益非浅。在仿真研究中，感谢杨晗在我碰到困难时的建议，感谢沈华品、陈永保和张涛在小组中的早期工作，感谢他们和

3、杨世琦、陈博、姜洪平、纪竹亮、叶凌云、李征科、王晓薇等同学曾做的诸多努力，特别是官俊和罗迪君不仅之前承担了大量的工作，而且使仿真研究继续开展下去。正是我们的共同奋斗才有了今天的成绩还要感谢和美国卡内基梅隆大学顾洋同学的邮件交流。感谢实验室的陈磊、陈亮、毛建飞、邹细勇、汪敬华、姚肖刚等同学在科研学习的过程中给予的帮助和支持，共同营造了一个和谐的学习环境。感谢平时刘鲁扬在数学上的帮助，还有寝室其他同学姚永琪、刘恒新、王军的帮助和支持。还有王三喜、郑重、曹刚和梁达明同学，在学习生活过程中与他们所进行的诸多有益的讨论，我学到了很多。同时对所有关心和帮助过我的其他老师、同学和朋友表示诚挚的感谢，

4、谢岗你们与我一起度过这段美好的时光。感谢我的父亲、母亲和姐姐，他们用自己最大的努力帮助我完成学业，感谢他们一直以来对我的关爱和支持。郭叶军二零零四年二月于求是园第一章绪论摘要：随着计算机技术的发展，多能体系统的理论及廊川研究已经成为人：智能研究的热点，机器人足球比赛作为项标准任务被引入，以促进多智能体技术、智能机器人技术及其相关领域的研究与发展。本章通过对多钾能体系统及其测试平台机器人足球比赛的介纠，引入本文的研究目标，并给山本文的章节安排。关键词：多智能体系统机器人足球雌界杯人工智能作为一门独立的研究学科，始于二十世纪血十年代。随着自动化信息技术的迅速发展，特别是计算机这强有力的运算

5、工具的进步，对人工智能的系统研究半个多世纪以来，已取得了一系列成果，从“深蓝”系列计算机解决的单智能体静态可预测环境中的问题求解，到最近的多智能体动态不可预测环境中的问题求解，成为了人工智能研究的代表性问题。由于机器人足球赛的特点，决定了足球的机一机对抗和人一机对抗正是研究多智能体理论的一个合适平台。本章首先介绍了多智能体基本理论，然后回顾了机器人足球世界杯的缘起和赛事安排，最后简单提及了本文的章节安排。多智能体系统自七十年代后期以来，随着计算机网络、计算机通信和并行程序设计技术的发展，分布式人工智能（）的研究逐渐成为一个热点，早期的研究主要是分布式问题求解，其目标是要创建大粒度的协作群体，

6、它们之间共同工作以对某一问题进行求解；九十年代，多智能体系统（）的研究成为分布式人工智能的热点，实际系统的分布性、复杂性和动态性有望通过对单个个体能力的有效分工、协调和组织而达到系统整体优化的目的。智能体的概念多智能体主要研究自主的智能体（）之间智能行为的协调，为了一个共同的全局目标，也可能是关于各自的不同目标，共享有关问题和求解方法的知识，协作进行问题求解。由于智能体概念一出现，就被许多领域使用，并从不同的研究领域和内容出发给出了许多不尽相同的定义。对智能体的定义是：具有自主性的智能体是能够不断感知环境并作用于环境，以完成其计划的一类系绪论统。（川给出的定义是：智能体足封装在些环境

7、中的计算机系统，为达到设计好的日标，它能够执行灵活口主的行为。认为，智能体足具有包括信念、能力、选择和承诺等精神状态的一个实体。而则认为，智能体足个具有控制问题求解机理的计算币元，它可以指一个机器人、个专家系统、一个过程、一个模块或一个求解单元等。机器人足球领域认为钾能体足具有理解（）、日标（）、认知（）、动作（）、领域知识（）、情景性（）的实体。基于智能体的概念，人们提出了种新的人工智能定义：“人工智能是计算机科学的一个分支，它的目标是构造能表现一定智能行为的智能体”。所以，智能体的研究应该是人工智能的核心问题。斯坦福大学计算机科学系的在的特邀报告谈到：“智能体既是人：智能的最初同标，

8、也是人：智能的最终目标。”智能体的认知模型智能体的认知模型旨在研究智能体特性的形式化描述，以及智能体根据各种信息对环境进行推理和决策的过程。认知模型认为智能体是一个意识系统，所以其研究中心是如何形式化的表达智能体的各种精神状态。提出的理论（）被认为是的理论基础之一。和在工作的基础上给出了智能体的形式模型，并引入决策理论的思想，。和率先比较系统的讨论了理性平衡、行为意图的形式表示和演化规则，建立了形式语言系统，用于表达对智能体理性行为的规则和约束。此外，还有的演绎模型，关于知识和行动的理论，基于社会角色的工作，对三个基本的精神状态：知识、和意图的研究等，。智能体的体系结构智能体也可以定义为从

9、感知序列到智能体动作的映射，体系结构的任务就是将感知、规划、决策、行动等各种模块有机的结合起来，从而形成具有一定特色的智能系统。根据人类思维的层次模型，可以将中的研究分为下述的二种典型体系结构，。慎思型体系结构基于和的物理符号系统假设，智能体维持着对世界的内部表示，具有能用一定形式的符号推理加以修正的精神状态。根据大多数通用的慎思方法，认知构件基本由两部分组成：世界模型和规划器。这种方法中有。个基本的假设：对认知功能进行模块化是可能的，即可以分开来研究不同的认知功能（如感知、学习、规划和动作），然后把它们组装在一起构成自治智能体。从程角度看，功能模块化降低了系统的复杂性。反越，体系结构起

10、源；的思想，即智能体不依赖复杂的符号表示，直接根据感知输入产：生动作。反应式智能体只是简单地对外部刺激发生反应，不使用复杂的符号推理，反应结构的设计源自这样的假设：智能体行为的复杂性是智能体运作环境复杂性的反映，而不是智能体内部设计复杂性的反映。混合型体系结构在现实世界或者虚拟社区【，智能体除了要保持对紧急情况的及时反应外，还要使用一定的策略对中短期的二为做出规划，并通过对世界和其他智能体的建模分析来预测未来的状念，以实现和其他智能的协作。所以，作为上述两种体系结构结合的混合型成为最常用的体系结构，既能实现面向目标的长期规划，又具有实时性的特点。这种体系结构在一个智能体中有机的组合了多种相

11、当独立、并行执行的智能形态。多智能体系统及其应用多智能体系统（）是由多个智能体组成的集合，是一种分布式自主系统。与单个智能体相比，多智能体系统具有以下特点：每个成员智能体仅拥有不完全的信息和问题求解能力（故其观点是局部有限的），不存在全局控制，数据是分散或分布的，计算过程是异步、并发或并行的，而且同一中的智能体可以异构，因此多智能体技术对于复杂系统具有更大的表达力，可以为各种实际系统提供统一的模型，从而为各种实际系统的研究提供统一的框架。理论和技术的研究，主要面向两类复杂的应用环境。一类是在网络中物理上分散的节点，这些节点具有一定的自主行为能力；另一类是本质上是集中式的应用问题，但可通过分布

12、式的算法取得更好的解。目前技术已经扩展到了工业（包括制造、过程控制、远程通讯、空中交通控制、运输系统等）、商业（包括信息过滤、信息收集、电子商务、商业过程管理等）、娱乐（游戏、交互式剧院和影院）、医疗（病人看护、健康照料等）等相当广泛的各个领域。其中一个重要应用是在网上，多智能体理论与获得了相得益彰的影响，一方面，多智能体系统在上获得了及其广泛的应用（信息过滤、信息收集、电子商务等）：另方面，网相关业务的迅猛发展也极大的推动了多智能体理论的创新和进步。多智能体理论的另一个具体应用就是机器人足球世界杯比赛，从年（表演赛）开始的机器人足球比赛能够十分典型的体现多智能体系统的许多特点，如动态、实

13、时、多人协调、感知信息不完全等，并具有对抗性及较强的观赏绪论机器人足球世界杯机器人足球比赛的最初想法山加拿人不列颠哥伦比大学的】教授于年正式提出。随后，）【、和等学者创立机器人足球世界杯比赛（最初是的简称，由于选择了足球比赛作为背景，因此又被称为）。年，在国际最权威的人：智能系列学术大会一第届幽际人工智能联合会议（，简称）卜，机器人足球比赛被正式列为人二：智能的一项挑战。至此，机器人足球比赛成为人工智能和机器人学的标准问题之一。机器人足球赛的长期目标与短期目的的长期目标是：到年一支完全类人的机器人足球队能够战胜当时的人类足球世界冠军队伍，这将是一个极大的挑战。从年莱特兄弟飞机上天到年

14、阿波罗登月成功花了整整年；从年首台通用电子计算机问世到年深蓝战胜当时的国际象棋世界冠军经历了年。回顾历史发展，里程碑式的标准任务基本都在半个世纪左右的时间得到较好解决，这也是长期目标实现期限的一个依据。就近期来说，为人工智能和机器人学提供了一个标准的测试平台，检验信息自动化前沿研究，特别是多智能体系统研究的最新成果，包括动态不确定的对抗环境下的多智能体合作、实时推理、机器学习和策略获取等当前人工智能的热点问题以及自动控制、机器人学、传感与感知融合、无线通讯、精密机械和仿生材料等众多学科的前沿研究与综合集成。并且和影响范围最广的足球运动结合，受到了公众的关注，促进了基础研究和实际应用的联系和转化

15、。机器人足球世界杯的项目分类机器人足球世界杯赛及学术研讨会是国际上级别最高、规模最大、影响最广泛的机器人足球赛事和学术会议。年在日本举行表演赛后，从年开始第一届比赛，以后每年举办一次，最近一次是在年意大利帕多瓦举行的第七届机器人足球世界杯赛及研讨会。现在共包括四大项活动，分别是足球比赛、紧急救灾比赛、青少年组比赛和研讨会。足球比赛是整个比赛的主要部分，包括小型组、中型组、四腿组、类人组和仿真组，除了仿真组比赛是全部通过电脑模拟外，其余的比赛都是以实物机器人形式参赛。小型组机器人足球赛（？）每个参赛队由血个机器人组成，尺、限制在高、直径之内；比赛场地司台球桌大小，每个机器人均通过悬挂在场地正上方

16、的同摄像头获取场地的伞局图像。主要研究智能机器人的控制、图像处理和策略获取。中型组机器人足球赛（）饵个参赛队山个机器人组成，尺寸限制在高、直径之内；比赛场地为大小，机器人无法获知场地的全局图像，依靠安装在自身的摄像头采集摄像范围内的图像。主要研究机器人定位、视觉、感知融合、机器人摔制、机械电机等方面的内容。腿组足球赛参赛者是由公司提供的机器狗，场地和小型组类似，但是没有伞局的摄像头采集图像。主要通过场地上的色标进行定位，研究智能机器人的控制和传感信息的提炼（感知器件和执行装置己由白带）。类人组比赛类人机器人是长期目标的重要组成部分，从年开始被作为比赛项目。包括规划决策、图像处理、自动控制、机器

17、人学、精密机械和仿生材料等研究内容。仿真组机器人足球比赛提供统一的软件平台，参赛智能体也以软件形式出现，每支参赛队由个软件智能体组成。软件比赛的仿真服务器环境与人类足球比赛的环境相似，比赛队员的仿真模型与实际队员也很接近，因此仿真比赛的研究可以很方便的移植到其它项目。而且软件形式可以实现机器人比赛中由于机器人硬件的不足而放弃的规则，同时也更易和不同的对手（即其他队伍的软件程序）进行测试，因此成为了各项比赛中参赛队伍最多的项目。主要研究内容包括机器学习、多智能体合作和对手建模。紧急救灾比赛分为软件比赛和实物比赛，均是研究如何在灾难现场利用机器人进行抢险救援活动；青少年组比赛是上述项目稍作调整后的

18、赛事；研讨会在全部比赛结束后进行，评价和探讨研究的进展情饬。机器人足球比赛与多智能体系统同一环境下的多个自主智能体共存可以构成多智能体系统。当所有的智能体都其享同一个目标时，认为这些智能体组成了个团队。为了团队目标的实现，每个智能体在自主活动的同时要作为团队成员进行合作（比如通过通讯或者默契等）。当然，在此环境中可能也存在共享目标的另外一群智能体，但是和团队的目标刚好是完全对立的，因此被称为团队的竞争对手。出于每个智能体的动作选择是独立的，也就意味着多智能体系统对环境作用是不可预测的，因此，绪沦如何存对抗环境考虑多智能体的合作和决策是多智能体理论的个重要组成部分。机器人足球赛则是两支参赛队

19、（团队）的对抗活动，每个幽队都包含若一机器人，共享司一个目标：赢得比赛，也就是多逃球。为了能够达到这个冈队目标，侮个机器人必须进行灵活的配合，尽快将足球推进到对方半场进而形成射门机会。也就是说尽管每个机器人都是自主的，但它们必须存共同目标的指引下进行团队协作。由丁：比赛是双方的，对其中一支队伍来说，另外一支队伍为了相同目标进行的各种对抗性活动也进一步造成了环境的不可预知动态变化，这样，我们就需要研究对抗环境下的合作问题。另外局部可观的比赛环境（小型组除外），低带宽不可靠的通讯信道，存在噪声干扰的感知器和执行器，要求存在实时推理的机器人。这些都表明，利用机器人足球比赛来研究多智能体理论是非常合

20、适的。仿真比赛平台通过模拟类似的特性，成为完全分布式的既有合作又有对抗的多智能体理论的测试平台。本文组织本文主要研究仿真比赛中多智能体系统的构建，即设计并实现一支机器人足球仿真组比赛队伍。作为开拓性工作，我们将队伍命名为（），希望建立浙江大学的仿真比赛基础，为以后的进一步研究提供更高更好的起点。第二章结合智能体的设计介绍了仿真平台的运动模型、感知接口、动作接口、时序和异构智能体，并回顾了仿真比赛中几支经典队伍的结构及实现技术。第三章完整的介绍了的多智能体系统架构。首先站在团队整体的高度，结合具体的领域知识，探讨协作策略。然后，应用了混合型智能体体系结构，并依次阐述了各组成部分，包括建模

21、模块、通讯模块、动作模块、知识库模块、规划决策模块和反应模块。最后，描述了通过多线程技术实现智能体结构的程序框架。第四章则叙述了服务于整体策略和规划决策模块的异构智能体的使用，在介绍了实现异构智能体的选择和辨识功能的在线教练的设计后，详细描述了我们对异构智能体的评价标准和分配框架，最后给出了辨识算法。第五章主要研究了智能体间的配合和对抗中的几个典型动作，通过清晰明确动作执行部分和分析部分的功能，将规划决策模块和动作模块紧密的联系在一起。通过对多种方法的比较研究，针对不同的截球要求实现了不同的截球实现手段，接着在截球的基础上研究了智能体间的传球配合，并研究了智能体的射对抗动作。第六章则是

22、结论与展望，总结了本文的创新点，对今后的发展方向提出了建议，并以年世界杯、年全国比赛的成绩论证了本文所采用的技术于三段，证明已经基本达到木文目标：“研究仿真比赛中多智能体系统的构建，即设计并实现一支机器人足球仿真组比赛队伍”。小结本章介绍了多智能体系统理论及应用，并回顾了作为多智能体理论测试甲台的机器人足球世界杯赛事，最后给出了本文的章节安排。浙江人学硕学位论文第：章机器人足球仿真平台和摘要：机器人足球仿真比赛通过提供一个软什平台米实现多智能体系统的模拟，该仿真平台包括运动模刑、感知接、动作接口、时序租肄构智能体等各部分。在此基础上山观了人啦的硼究，并应丁仿真比赛取得较好的结果。本章

23、结合智能体的设计介“了仿真平台，并介绍了比较经典的结构及实现技术。关键词：机器人足球仿真比赛仿真平台机器人足球仿真比赛是机器人足球比赛中参加人数最多的子项目，仅需要几台计算机就可以丌展相关的研究工作，全部活动由计算机模拟完成，可以避免机械电路造成的各种硬件限制，将精力集中于高层的算法研究，在实时异步、有噪声的对抗环境下，研究多智能体间的合作问题。仿真比赛建构在仿真平台的基础上，仿真平台是仿真比赛的服务器，模拟了比赛环境并充当比赛裁判，以方式和参赛队伍（即个自主的软件智能体）进行消息交互。本章首先通过和实物的类比引入了仿真比赛的概念，接着结合智能体的设计介绍了仿真平台的运动模型、感知模型、指令模

24、型、时序和异构智能体；最后简单回顾了仿真比赛中经典队伍的结构及实现技术。机器人足球仿真平台仿真平台的软件程序是（），包括了一个最简单的智能体例程、仿真比赛监视程序、仿真比赛重播程序和最主要的仿真比赛服务器程序（版本之前名为），由国际足球服务器维护小组维护，每年都有更新，比赛规则基本上与国际足球联合会现行的比赛规则致，最主要的区别在于仿真平台模拟的是两维平面，而非三维空间从年丌始仿真比赛引入了一个新的子项，即模拟三维空间的仿真平台，本文接下去的讨论还是集中在二维平台上。另外，由于仿真平台是个系统的概念，本节虽然进行了分模块的介绍，但还会存在相互的概念交叉引用之处。更详细的内容参见。仿真比赛环

25、境考虑一卜自丰的实物机器人足球比赛时的情况，首先存在一个实际的比赛场地，并配备场上裁判执行比赛规则，机器人小车被放到场上后，比赛丌始。每个机器人小车上都安装有摄像头，捕获摄像范围内的图景交由计算机视觉模块处理，然后进行规划推理并将结果分解为最基本的电机控制信号，驱动机器人小的运动。因此，实物比赛极大的受制于图像处理、电机捧制、机械结构等硬什条件，为了能够更好的研究主要算法，仿真比赛应运而生。类似的，如图所示，在仿真比赛中，软件智能体电有视觉范围，只是无法像实物机器人那样可以通过摄像三主动抓取图片，只能通过些参数的设置，依靠另外的信息来源才能得到输入消息，因此，类似于摄像头的信息来源的功能

26、只能由仿真甲台来模拟。另一方面，软件智能体也无法实现电机机械的功能，其在比赛场上的运动也只能由仿真平台支持。厂一一一一一一一一一一一一一一一一广一一卜摄像头等感知外界情况：实际环境规划决策一一一执行装置执行动作！从而影响环境图）实物比赛的智能体接从仿真平台获取外界信息：一；规掣决策仿真革台！上；丫。；将基本动作指令发给仿上一！真平台，从而影响环境：。图伯）仿真比赛的智能体接当然，仿真平台除了要提供和智能体相关这两类接口外，还需要充当裁判功能，还必须提供相应的接口和监视器连接，以支持对比赛场地及场上所有参赛者的虚拟。另外，为了能够更好的提供离线训练和在线学习的功能，仿真平台还提供了教

27、练接口（包括在线教练和离线教练）。一个完整的仿真比赛以方式进行，如下图所示。蹦仿真乎台（）与参赛队伍（）通过协议实现结构仿真平台运动模型比赛场地是米米（其实在仿真平台中，以 “米”作为长度单位是无意义的）的二维平面区域，仿真平台对比赛情况的虚拟主要体现在对静止对象和运动对象的虚拟上。静止刈象包括球场的条边线、两个球门以及场上为方便钳能体白定位的很多固定点共计：个静止对象，它们的状念信息就是存场的化瞄，即不变的全局坐标，如图所示，字母： “”分别表示止，右，中心，卜，卜；“ ”表示罚球区。运动对象主要包括个智能体队员和个足球对象，以圆形表示其在场：的存在（圆半径表示对象的大小），状念信息是断

28、变化的位置和速度，队员还包括身体朝向、头部朝向等属性。这些对象状态的更新构成了整个比赛的进展。（）（）（）（）（）（；）。（）（）。（）（；）。（；）图仿真甲台中的比赛场地和静止对象由于仿真比赛全部在计算机上模拟，因此，和其他的实物机器人比赛的一个较大不同点就是仿真比赛是离散的，而实物比赛可以被看作是连续的。仿真平台以毫秒为一个仿真周期，比赛分上下半场，各个周期（共计分钟），中场休息分钟，期间参赛队可以修改智能体代码。比赛过程被离散化后，队员对象和足球对象的位置和速度状态只在每个周期末更新切换一次，下面介绍其物理运动模型。队员的奔跑和本身的速度衰减都会改变其速度，进而引起场上位置的变化。速度衰减是队员的固有属性：奔跑则是由动作接口指令产生，（）给予球员新的动力。足球除了其固有的速度衰减属性外，球员作用在足球上的踢球指令（）也赋予足球新的动力。状态更新由下面的公式决定。（。，。）（：，（：，：）：新的动力导致速度变化

展开阅读全文