1、江苏大学硕士学位论文基于个性Agent的协作强化学习模型研究姓名:严耀华申请学位级别:硕士专业:计算机应用技术指导教师:程显毅20080606江苏大学硕士研究生毕业论文,弱,锄培沱卸衄,印,酉,锄 锄,觚、)柚似,;,哆,印、)盯 哆锄 ),(弱哆),而,:()啪 咄 时耐,曲锄也【(),响(),甜幻血,印伊,撕丽舐,()锣们锄锄嬲删,锄锣,百勰觚哆() 芏,删,)面,:“劬哆锄【,哆、:够;学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权江苏大学可以将本学位论文的全部内容
2、或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于保密,在年解密后适用本授权书。,不保密学位论文作者签名:荔龋孥指导教师签名:舻矿年么月局日彖蝴咕年只(;昂独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:芳魂乒日期:洮年石月日江苏大学硕士研究生毕业论文第一章绪论问题的提出是人工智能中的
3、一个重要概念,作为人工智能的一个重要分支,其研究主要内容可分为:分布式问题求解(,)和()。侧重于信息管理,包括任务分解和解答综合;侧重于行为管理,包括如何 协调各的知识、目标、策略和规划,以采取联合行动或解决问题。由于比更能体现人类社会智能,更加适合开放、动态的环境,因而越来越受到人们的重视。的构建首先根据所研究的问题,定 义单个的,给 赋予一定的行为和参数;使之适合更匹配任务中的角色职位。然后,定义之间以及和环境之间的交互规则;最后,通 过之间的交互活动产生解决问题的能力。 对于,协作模型的好坏直接影响着系统的效率【。构造和设计之间的协作是多技术的核心。目前的协作模型的研究,对于的个性的研
4、究以及基于个性的群体学习研究较少。为此,本文基于个性提出了()模型,试图从另一个侧面解决的协作问题。本文提出的弹模型是个体与整体的结合,是独立于具体领域的,具有一般性,也可以作为具体领域(如联合设计、工作流管理、电子会议、等)多协作的一个基础框架。 这个框架结合了集中控制与分散控制各自的长处,同时也提供了主动协作机制。研究内容、目的和创新点目前对的协作研究主要包括理论与应用两方面。理论研究包括:社会规范的生成机制、协作模型、协作产生的过程、 协作的分类、大 规模自治系统的协作、 协作的进化、协商、联盟、脚中的欺骗与信任【、计算机支持的协作工作(、聊等方面。应用研究包括:信息采集中的协作、电子商
5、务中的协作【、移动的协作【、网格 计算中的协作等方面。而萨的能力以及系统的学习机制又影响着协作模型的优劣。的能力是多系统解决问题的能力的基础。解决不同的问题需要不同的能力,这些能力的差别体现了个别差异性。而群体的学 习对 于系统能否不断完善起着至关重要的作用。所以研究的个性以及群体的强化学习是一个十分有意江苏大学硕士研究生毕业论文义的工作。模型是建立在多系统资源共享以及各个的个性信息之上的。虽然独立的有各自不同的目 标、知识及经验的信念库,但建立的一个协作协议使它们都制约在一个群体的协作模型之下,以群体的目标为最高目标,以个性匹配任务角色,提高个体效率,以群体强化学习提高整体协作能力。模型研究
6、的内容包括:个性的个性特征的表达(节);行为效果的评价(。节);模型的角色与个性关系(节);模型的基本元素及其映射关系(节,节)。个性的目标和群体目标相互协作如何平衡(节);网络技术的发展为和的研究与开发提供了应用的平台。如何将一些独立自主、各具专长、能 够协作工作的个性集成在一起,实现功能强大、应用广泛的是本文研究的目的所在。主要创新点如下:()提出了一种具有个性的实现机制,并对其进行形式化描述。()提出了模型,该模型从从另一个侧面解决多 协作问题。()将模型应用于球队设计中并对实验结果进行性能分析。()利用角色划分、任务 分配、偏好愿望修正来解决在追求个性和协作目标中的矛盾。课题的研究背景
7、协作模型研究 现状许多分布式应用领域的多协作系统是定做的, 这 些系统往往是针对特定的任务,协作方式往往也是被动的(即请求与服 务已由系统开发人员事先确定好的),且有预定义好的通讯链。 这些系统缺乏广泛性、灵活性,并且难以扩充。在分布式开放环境中,涉及的多个往往是异构的(各船之间存在语法、控制及语义上的差异)、 动态的(的个数、能力、 规划及拓扑结构可能是不断变化的)、不可预测的(如的行 为结果往往无法预料,的“心理”状态变化无常)。这些特征使得多的协作变得十分困难和复杂。之间的协作是保证多个能在一起共同工作的关键,同时也是多系统与其他相关研究领域(如分布式计算、面向对象的系统、专家系统等)区
8、别开来的关键性概念之一。多系统中,协作不仅能提高单个蟾以及多个所形成的系统的整体行为的性能,增 强 及多系统解决问题的能力,还能使系统具有更好的灵活性。年代以前,分布式人工智江苏大学硕士研究生毕业论文能对协调和协作的研究主要集中在无目标冲突的情况下各的相互帮助,实现目标。年代,分布式人工智能对协作的研究主要是在异构环境下的应用互操作,面向多层的模式。年以后,分布式人工智能对协作的研究通过多模式,进入了智能化的协作。从多协作机制建模的发展过程来看【,以 逻辑 推理的形式化建模的方法和以决策理论和动态规划为基础的建模方法正在逐渐融合,二者都强调智能体的理性作用。纵观近十年的研究状况,适应不同的应用
9、环境而从不同角度产生过多种不同类型的多模型和应用系统。这些模型包括:理性智能体的模型、协商模型、协作规划模型和自协调模型。()理性的模型理性的模型是一个概念和逻辑上的理论模型,自从提出的信念、愿望、意图的理性平衡观点后,模型成为研究理性和推理机制的基础。将模型扩展到,于是有了联合意图、社会承诺、合理性行为等描述或约束协作行为的形式化定义【。以联合意图作为 协作基础,建立了复杂动态环境下的协作框架;联合意图对共同目标和共同承诺进行描述,当所有的个体都同意这个共同目标,那么每个成员个体就承诺去完成这个目标。联合意图上的联合责任机制为了行动的完成建立了达到目标的行动序列和共同协定,并通过实时修改或重
10、建协定,以确保系统的可靠性。分析了联合承诺问题,并用以描述合作推理和协商问题。就社会承诺问题作了探讨,给出几种社会承诺机制。从体系结构应用的角度进行了的决策和效用的应用【,】,提出了用适当的决策理念和方法对复杂的决策问题进行建模,用复杂的结构图有效地表示大量的决策信息,并在图中进行有效的推理,使中的能够了解其它,以实现协作和交互。多的模型广泛用于许多领域,如军事任务的模拟以及机器人足球领域的中。仿真足球洲】和“仿真足球酣 】都把模型引入到了足球机器人仿真系统的设计中,通 过定义为球员感知到的比赛状态(世界模型),是根据确定可能要使用的动作目标,则在中选择最好的动作作为结果。由于即模型要求智能体
11、达到信念、愿望、意图的理性平衡,所以它的反应速度慢,不能很好的适用于动态、 实时的中,而且模型的准确定 义也很难给出。()协商模型协商的思想产生于经济活动中的理论,它主要用于资源竞争、任务分配和江苏大学硕士研究生毕业论文冲突消解等问题。协商就是一组有冲突利益的愿意 协作,并试图对稀少资源的使用分配达成一个相互可接受协议的过程【”。由于的自主性,所以协商一般是指自动协商。尽管是自利的,其行动目标就是使自己的效用最大化,但当要完成全局目标时,就需要在全局目标上建立一致关系。在资源不足的多 动态环境中,任务分解,任务分配,任务监管,任务评价即是一种必要的协商策略。合同网协议是协商模型的典型代表,它首
12、先是由大学的等在研究分布式求解问题时提出的,后来被许多研究者扩充,用于实现之间的协作。合同网协议是一种动态的任务分配方法,通过任务招标、投标和订立合同进行协作。招 标者先把任 务分解,然后并发地把子任务向所有广播,其他收到招标书后,根据自己的能力和兴趣决定是否投标,招标者收到招标书后,进行评价,选出中标者,把子任务分配给它。中 标者执行子任务并返回结果。最后招标者再把子任务综合。该模型主要解决任务分布、资源冲突和知识冲突,如将其应用于分布式车辆派货和多计算机协作计算等。此外,等用多级协 商协议解决分布式约束满足问题中的任务分布和资源分配冲突,多级协商是对传统合同网的扩充,在投标和中标的过程中允
13、许反复协商。以劳资协商为背景对非协作类的多智能体相互作用进行了研究,结合基于推理和多属性效用理论提出“劝说性辩论”模型。等用对策论和博弈论方法研究无通信情况下的协作。等研究协作或非协作智能体在只有部分信息的情况下进行协商和冲突消解的理论。提出一种基于知识的协商方法来消解冲突等。合同网协议的优点是系统的构造简单,可扩充性好,缺点是效率不高、广播通信量大,支持的协作形式单一。()规划协作模型多的协作规划模型主要用于为多个制定协调一致的问题的求解规划。具有自己的求解目标,并且每个都考虑其它他的行动和约束,从而进行各自独立的规划称之为部分规划。在此基础上提出了部分全局规划()方法。方法提供一种的协调框
14、架,允许各动态合作。的相互作用以通讯规划和目标的形式抽象表述,通过以通讯元语描述规划目标,相互告知对方自己得行为期望,利用规划信息调节自身的局部规划,从而达到共同目标。针对方法在建立 实时和全局控制问题 一般框架方面存在一些局限性,改进了方法,提出了一种一般的方法即()方法,方法是几种协调机制的集合,允许异构、通信和交换少量的全局信息,它适用于的团队协作,并应用于他的(,)系统中【】。江苏大学硕士研究生毕业论文无论是方法 还是方法,本 质上都是基于的独立全局规划,其观察状态的不确定性,随着环境复杂度的增大而增大,因而用它们很难满足全局控制系统的协调要求,存在局限性。共享规划模型是另一种协作规划
15、模型。它将不同心智状态下的期望(这种期望考虑了一个群体的联合行动)定义成一个公理集合来指挥群体中成员采取行动去完成分配的任务。共享规模型最早应用在空中交通管理上。将 联合意图和部分共享规划结合起来提出一种混合的系统,建立在一种由多个独立增量法则形成的集合确定的增量结构基础上,系统在军事演习的仿真和机器人世界杯足球赛的设计中得到了应用。()基于学习的自 协调模型自协调模型是为了适应复杂控制系统的动态实时控制和优化而提出的。复杂系统的实时控制,要求控制系统能根据环境和被控对象的动态变化自适应地改变控制结构,调整控制策略,修改控制参数。因而完成实时控制任务的应具有相互间自动协调控制任务和行为的能力。
16、自协调模型是随环境变化自适应调整行为的动态模型,是建立在开放、 动态环境下的多模型。 该模型的动态特性表现在两方面:一是系统组织结构的分化重组,包括对完成共同任务的的选择, 协作结构的动态生成和在线调整。另一方面是内部以新的控制任务或新的平衡状态为目标进行联合行动的自主协调。多的自协调模型主要基于分布式环境下旭的学习能力。和【】根据对行动产生效果的预测,来建立和修正信念,提出一种对其它响应进行建模的,试验结果表明通过对模型的学习能使协作达到更好的效果。【】等提出的 协调模型则是通过的相互作用进行学习,学 习的结果通过整个系统和单个的效益显示出来。其结论是如果所有都采用学习,则联合系统的效益接近
17、最 优,单个的效益相近;如果无相互学习,艇的单个效益几乎相当,但联合效益则大大低于学习的情况。这种模型广泛用于过程控制、多机器人协调、空中交通控制和城市交通控制中。由于多的白协调模型要求应具有分布式环境下的学习能力,而现有较为成熟的学习方法一般都是基于独立的学习,不能直接用于分布式环境,并且 现有预测方法的有效性和动态性不够理想,所以自协调模型的实现还比较困难。国内还有许多学者,也正在致力于多协作的研究,主要针对协作的体系结构、 协作决策、规划模型和的学习算法等方面进行讨论和研究。如国防科技大学提出了采用协进化方法来进行多智能体协作系统的体系结构研究,中南大学的赖旭芝等人提出了基于行 为的双层
18、动态智能体结构和多智能江苏大学硕士研究生毕业论文体层次协作模型。()存在的问题。各种不同的协作模型(或称协 作方法)大体可以分为两类。一种协作方法是:提供一个具有全局知识的,通过它实现多协作的全局控制,如任务的规划与分配。但我们发现随着各的复杂性和动态性的增加,控制的瓶颈问题也愈加突出。 这种集中控制方法的致命缺点还在于,一旦控制全局的艇崩溃,将导致整个系统崩溃。另一种协作方法则是:控制是分散的,知识是局部的。这种方法使各获得一定的自主性,从而增加了灵活性,控制的瓶颈问题得到缓解。但如果每个的运作受限于局部的和不完整的信息(如局部目标、局部规划), 则很难实现全局一致的行为多的协作。在各中嵌入
19、必要的 协作层知识,有助于问题的解决。 这些协作知识包括其它的能力、目标、方案、 兴趣、行为以及相互依赖信息等等。然而在开放环境的多协作过程中,往往会出现一些不可预测的事情,例如出现了意外的事故,而许多协作的都不知道。对不可预测的意外事件的处理,是开放环境多协作亟待解决的一个 问题。具体表现在:各个协作模型都有自己的应用场合和应用平台,没有一种模型是通用的。如果不论实际情况,而始终采取某一个协作模型,难以达到预期的效剁。大多数协作模型的应用和实现需要有自己的开发平台,而这些平台的实用性差,难以被一般用户所掌握口。某些协作模型理论过于复杂,并且对应用环境要求较高,难以在一般系统中得到广泛应用。大
20、多数协作模型是静态的,不适合动态的环境。某些模型中的职责不明确,用 户不能很好理解和掌握。因此,在仿真这一 动态对抗且通信受限的环境中,由于实时动态、不确定的非线性控制对象和难以建立数学模型的等因素影响,理性的肋模型难以建立,且响应慢、动态性差;规划协作模型具有良好的反应特性,但很难满足动态和全局控制系统的智能性要求;自协调模型能适应和满足复杂系统的动态实时控制和优化的需求,但要求系统具有较好的多智能体学习能力。如何既能够进行协作的有效规划,又能够进行协作策略的有效学习,是本文研究的动机。的体系结构研究现状的体系结构【】 解决的是主要由哪些模块组成,它们之间如何交互,其感知到的信息如何影响它的
21、行为和内部状态,以及如何将这些模块用软件或硬件的方法组合起来形成一个有机的整体。认为 结构主要是考虑如何将分解为构件模块的集合,以及 这些构件模 块之间的交互问题。按结构划分主要有三种,即慎思型,反应型和混合型。江苏大学硕士研究生毕业论文()慎思型。慎思最早出现于所使用的一词。和将慎思定义为:“包含世界显式表示的、符号的模型,并且其决策(如执行什么动作)是通过逻辑(至少是伪逻辑)推理、基于模式匹配和符号操作。根据大多数通用的慎思方法,认知构件基本上由两部分组成:规划器和世界模型。慎思型的结构图如图所示。图卜慎思型结构兀慎思方法的局限性在于这种结构的要面对以下两个问题:转换问题:如何在一定时间内
22、将现实世界翻译成一个准确、合适的符号描述;表示推理问题:如何用符号表示复杂现实世界中的实体和过程,以及如何让在一定时间内根据这些信息进行推理,作出决策。()反应型。反应如图所示,与慎思相反,反应是不包含用符号表示的世界模型,且不使用复杂符号推理的。第一个反应出现在年代中期,支持反 应型结构的研究者 认为,的智能取决于感知和行动(即中的行为主义),的智能行为只有在与周围环境的交互中才能表现出来。故在此类中,没有世界模型和规划,仅有一些 简单的行为模式, 这些行为模式以刺激一一响应的方式对环境的改变作出反应。江苏大学硕士研究生毕业论文图反应犁结构蛐反应结构的设计部分是来自如下的假设:行为的复杂性可
23、以是运作环境复杂性的反映,而不是复杂内部设计的反映。反应型结构的又可以分为包容()结构、 规程() 结构、 场景自动机()等几种类型。包容结构是由若干个完成任务的行为动作组成的层次结构,各层之间优先级不同,最底 层完成最基本的动作,没有明确的符号匹配推理机制。包容结构最早由提出。建立了基于包容结构的火星探测模拟系统。等研究者认为的大多数行为是一种习惯,而不需要推理。因此,他们将设计为由若干个规程组成,每个 规程对应 一个基本不变的任务。若出现新的问题,只需要修改相应的规程, 这就是规程结构。的模 拟计算机游戏系统就采用了规程结构。场景自动机结构由和提出。在场景自动机结构中,只包括两个构件:感知
24、和行动。 结构中不存在符号表达,因此无须进行符号处理。网络结构类似于神经网络结构。不同的是在网络结构中,每个节点都有明确的含义,有自己的前件、后件和激活级别。一般来说一个采用反应型结构的不能对其内部状态进行推理,但可能对环境的变化产生反应,或响应来自其他的消息,通过触发规则或执行事先确定的规则来实现相应动作。()混合型。在上述两种类型的中,反应型能够快速响应外来消息和环境变化,但是其智能程度较低,缺乏足够的灵活性。反 应型不能保证系统行为一定能达到预期的目标,甚至不能保证其行为是理性的。而慎思型能够根据其内部状态和世界模型的显式表示和逻辑推理来执行一系列合适的规划以完成相应的目标,具有较强的灵
25、活性和较高的智能,但是效率较低。由于慎思型和反应型各自有着明 显的优缺点,因而在 这两种结构的基础上产生了混合型结构(如图 )。江苏大学硕士研究生毕业论文图混合型结构混合型结构是一种将慎思型和反应型结构有机结合而形成的复合型结构。采用混合型结构的综合了慎思型和反应型的优点,既具有较强的灵活性,又具有快速的响 应能力。混合型结构通常至少包括以下两部分的层次结构:高层是一个包含符合世界模型的认知层,采用传统符号的方式处理规划和进行决策;低层是一个能快速响应和处理环境中突发事件的反应层,在反应层中没有任何符号表示和推理系统,反应层通常优先级高于认知层。除此之外,混合型结构研究的其他问题还包括各层采取
26、何种控制框架以及各层间如何交互等。强化学习研究现状强化学习是指从环境状态到动作映射的学习,使得动作从环境中获得的累积奖赏值最大。 该方法不同于监督学习技术那样通过正例、反例来告知采取何种行动,而是通过试错(“卜)来发现最优 行为策略。采用 统计技术和动态规划方法来估计在某一环境状态下的动作的效用函数值,研究人员称之为强化学习技术。它是从控制论、 统计学、心理学等相关学科 发展而来,直到世纪 年代末、年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能的核心技术之一由于在强化学习中,通过其选择的动作策略将影响训练样例的分布,这样就会产生一个问题:是选择
27、搜索未知的状态和动作(搜索新的知识),还是利用已获得的、可以 产生高回报的状态和动作。由于搜索新动作能够带来长期的性能改善,因此搜索可以帮助收敛到最优策略:而利用可以帮助系统短期性能改善,但可能收敛到次优解。因此把 获得最优策略的强化学习算法称为最优江苏大学硕士研究生毕业论文搜索型();而把获得策略性能改善的强化学习算法称为经验强化型();在图卜中,分 类图的横轴分为最优搜索型和经验强化型两大类。分类图的横纵轴是强化学习所面临的环境类别,基本上可以分为马尔可夫型环境和非马尔可夫型环境。图卜 给出了一些代表性的算法在分类图中的表示。通常强化学习面临两类任务:一类是非顺序型任务;另一类是顺序型任务
28、。在非顺序型任务中,当学习环境状态空间到行为空间的映射时,的 动作会瞬间得到环境奖赏值,而不影响后继的状态和动作。而在顺序型任务中,采用的动作可能影响未来的状态和未来的奖赏报酬。在这种情况下,需要更长的时间周期与环境交互,估计 当前动作对未来状态的影响。莲拿连安比蠡、: 规贝抽取、奚霖多内缸、;僦术、境:部懒:学习蝴 图强化学习分弓姻毽卜口 猡如心血咖咖田吨因此的学习涉及到时间信度分配问题(),即在采用一个动作后得到的奖赏值,如何分配到过去每个行为动作上。关于强化学习的算法有很多。等人【提出一种简单的强化学习算法,即单的学习算法,目的在于从马尔可夫决策过程模型中找到最优策略。在学习中忽视其他的
29、存在,把其他当做外部 环境的一部分。和等人【在零和博弈的群体环境下,提出算法,即在学习算法中引入最小最大过程,在考虑下一步策略之前,首先考虑对手的最优策略,然后再以此选择自己的最优策略。和【研究在一般博弈中策略的梯度变化对均衡解的影响。和【 】在上述理论研究的基础上,提出了变速再励学习的观点。【在机器人足球比赛中采用分层学习的方法,用来解决复杂系统中无法直接通过感知来学习的问题。以上观点都是从单个角度出发, 对不同的环境假设选取合适的研究方向,并给出相 应的算法,但都存在不完善的地方。 这些观点大都基于一对一的旭环境, 仅仅考虑个体之间的强化学习,没有考虑多强化学习。多学习是当前兴起的一个新的
30、研究领域,其目的是将学习技术应用到多系统。多 强化学习机制被广泛应用到各个领域,比如游戏、口语对话系统以及机器人足球等等。多系统由两个基本的元素构成:与环境。多学习的类、,五了掰片舛爿江苏大学硕士研究生毕业论文型是根据其基本元素间的相互关系来定义的,基于此,一般将多强化学习分成三种形式:合作型多强化学习、竞争型多强化学习和半竞争型多强化学习。下面分析各自的特点和主要算法。()合作型多强化学习在合作型多强化学习中,在任意离散状 态, 马尔可夫对策的联合奖赏函数对每个来说是一致的、相等的。因此,每个最大化自身期望折扣奖赏和的目标与整个多系统的目标一致。()竞争型多船强化学 习在竞争型多强化学习中,
31、任意离散状 态下马尔可夫 对策的联合奖赏函数如对每个来说是相反的。因此每个自身目标与其他的目标是完全相反的。下面以两个为例,即系统中包含和对手。图卜给出两个系统中某一状态下的对策模型。显然,该模型满足零和对策的定义:在任何策略下所有的奖赏和为。由于的奖赏值取决于的动作,因此传统单 强化学习算法在竞争型多强化学习中不适用。解决这一问题最简单的方法是采用极小极大算法:在每个状态,对于其最优策略为选择最坏动作情况下,选择奖赏 最大的 动作。然而在竞争多系统中,如果多个同时进化,将导致系统非常复杂。()半竞争型多强化学 习在实际多系统中,往往 单个所得奖赏并不是其他所得奖赏和的负值,所以多系统中离散状
32、态只能形式化为非零和对策。如下事例, 图卜是表示多两难问题。如果采用极小极大算法求解,其最优解为(,),奖赏为(一,一);显然该问题最优解为(,),奖赏为(,)。在半竞争型多(,一)(,一)(,)(,)图阶删 零脓俐毽碾。暇皿伊腿缸咖删掣电(,一)(,)(,)(,)图两个倒睦和秽 耐裂飚砌旧置伊趟讷咖则剐衄强化学习中, 结构信用分配问题也非常重要,当性能改善时,它不清楚是由于自身行为引起还是由于其他行为造成。除了以上介绍典型方法外,一些研究者将对策模型扩展为随机对策模型,并将的确定性策略转为概率意义上的混合策略。另外,由于多学江苏大学硕士研究生毕业论文习离不开之间的通信,特 别是实时系统中,这
33、种通讯代价必须考虑。其次,对多学习建模的方法之一是把其他的信息扩充到每个的状态中,然而,在有噪音的 环境下用这种方法就很难识别其他的信息和行动。本文提出的协作协议方法使每一个在环境中都具有独立学习的能力,并且容许其他分享它的有益的学 习经验。同时把方法应用到公共策略的使用和更新中。论文的组织结构论文共分五章,主要内容概要如下:第一章,阐述了本文的研究目的和意义,在 论述了协作模型、体系结构以及强化学习研究现状问题基础上,针对基于构造个性和设计之间的协作研究较少,提出了本文的工作一基于个性的协作强化学习模型的研究问题。阐述了研究的主要内容和论文的创新点。第二章,给出了个性及其形式化描述,包括个性的概念、思维状态、多思维状态、个性的活 动机制等。在个性的活 动机制中又分为的个性特征表达、个性特征决策、行为效果评价以及愿望修正、信念修正和规划修正等。第三章,提出了一种新的多旭协作模型, 针对 模型中角色与个性的关系、基本元素、映射关系等进 行描述,详细阐述了协作协议,论述了模型的形式化描述、工作过程并对模型的有效性进行了分析。第四章,通过 仿真足球比赛这个典型的测试环境,设计并实现包括球员的动作与感知模型、球队的策略与阵型等,其次详细描述了模型的决策过程,最后,进行 实验分析。第五章,总结全文,并对今后的工作给予期待和展望。