1、 硕士学位论文论文题目 基于模糊近似的强化学习方法研究研究生姓名 穆 翔指导教师姓名专 业 名 称研 究 方 向论文提交日期刘 全(教授)计算机应用技术机器学习与模式识别2014年 5月基于模糊近似的强化学习方法研究中文 摘要基于模糊近似的强化学习方法研究摘要强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过 Agent与 环境交互以 获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何求解大规模状态或动作空间的问题。本文将模糊推理作为近似方法用于强化学习算法中,针对当前已有的基于模糊推理的强化学习算法的不足,提出几种改进的基于模糊推理和基函数优化的值
2、函数近似算法:(1)针对传统的基于 查询表或函数近似的 Q 值迭代算法在 处理连续空间问题时收敛速度慢,且不能求解连续行为策略的问题,提出一种带有资格迹的基于双层模糊推理的时间差分算法(DFR-Sarsa() ,并从理论上分析其收敛性。算法的第一层推理使用模糊状态集合以计算连续动作,第二层推理使用模糊动作集合以计算 Q 值分量,最后结合两层推理计算连续动作空间中的 Q值函数。(2)针对传统的基于模糊推理的强化学习算法存在收敛性能不足和对噪音干扰缺乏鲁棒性的问题, 提出一种基于区间 型二型模糊状态划 分的 Sarsa()算法(IT2FI-Sarsa(),并从理论上分析其收敛性。模糊规则的前件部分
3、使用新颖的椭圆形二型模糊隶属度函数来划分连续状态空间,且该隶属度函数可以使降型存在闭合解。通过二型模糊推理获得 Q 值函数后,使用梯度下降方法更新 规则的后件参数。实验表明,IT2FI-Sarsa()算法具有较好的收敛性能,且 对噪声干扰有鲁棒性。(3)针对当前强 化学习方法在使用线性函数近似时,由于根据不准确先验知识设定基函数而造成的泛化性能不高的问题,提出一种带有自适应基函数的模糊值迭代算法(ABF-QI),并从理论上分析其收敛性。算法的基函数采用 “自顶向下”的自适应更新方式,首先根据初始设定的基函数计算 Q 值函数,其次根据性能 评价准则选择需要细化的基函数,最后采用分层更新的方式调整
4、基函数的个数和形状。关键词:强化学习,值函数近似,模糊推理,二型模糊逻辑,基函数细化作者: 穆翔指导老师:刘全(教授)IAbstract Research on Reinforcement Learning Methods Based on Fuzzy ApproximationResearch on Reinforcement Learning Methods Based onFuzzy ApproximationAbstractReinforcement learning is a kind of machine learning methods that can be used fors
5、olving Markov decision process problems. It interacts with the environment to get themaximum cumulative rewards. The current challenges and opportunities of reinforcementlearning are how to solve problems with large state or action spaces. For the shortcomingsof the current reinforcement learning me
6、thods based on fuzzy inference, this paper usesfuzzy inference as approximating methods on reinforcement learning methods, proposesseveral improved value function approximating methods that based on fuzzy inference andbasis function optimization.i. In allusion to the drawbacks that the classic Q-ite
7、ration algorithms based onLookup-table or function approximation converge slowly and are difficult to get acontinuous policy,this paper proposes an algorithm named DFR-Sarsa() based ondouble-layer fuzzy reasoning and proves its convergence in theory. In this algorithm, thefirst reasoning layer uses
8、fuzzy sets of state to compute continuous actions; the secondreasoning layer uses fuzzy sets of action to compute the components of Q-value. Then,these two fuzzy layers are combined to compute the Q-value function of continuous actionspaces.ii. For the slow convergence performance and poor robustnes
9、s of fuzzy reinforcementlearning methods, this paper proposes an algorithm named IT2FI-Sarsa() based on aninterval type-2 fuzzy inference and proves its convergence in theory. In the fuzzy inferencesystem, the antecedent part uses a novelelliptical type-2 membership function, which canmake the defuz
10、zification hasa closed solution, to partition the continuous state spaces.After getting the Q-value function by type-2 fuzzy inference, it updates the parameters ofthe consequent part with the gradient descent method. Experimental results show thatIIResearch on Reinforcement Learning Methods Based o
11、n Fuzzy Approximation AbstractIT2FI-Sarsa()not only hasa nice convergence performance, but also is robust to noise.iii. The current basis functions are designed mainly based on inaccurate priorknowledge, which may cause poor generalization when linear function approximation isapplied on reinforcemen
12、t learning. To overcome the above shortcomings, this paperproposes an adaptive basis Q-iteration algorithm named ABF-QI and proves itsconvergence in theory. The algorithm works in a top-down fashion to select the basisfunctions. Firstly, it computes the value function based on the initial basis func
13、tions;secondly, it chooses the basis functions that need to be refined according to the criteria ofperformance evaluating; lastly, it adjusts the number and shape of basis functions with atype of hierarchy method.Key words: reinforcement learning, value function approximation, fuzzy inference, type-
14、2fuzzy logic, basis function refinementWritten by: Xiang MuSupervised by: Prof. Quan LiuIII目录第一章引言11.1研究背景及意义11.2研究现状31.3研究内容71.4论文组织结构9第二章基础概述102.1马尔科夫决策过程102.2模糊推理122.2.1一型模糊推理.122.2.2二型模糊推理.132.3线性值函数近似152.4基于模型的模糊 Q值迭代算法.162.5本章小结18第三章 一种基于双层模糊推理的Sarsa()算法.193.1 Q值函数的计算和 FIS的参数更新193.2 DFR-Sarsa(
15、)算法 .223.2.1 DFR-Sarsa()算法的学习过程 223.2.2算法收敛性分析.233.3仿真实验及分析263.3.1 Mountain Car 263.3.2 Cart-pole Balancing 293.4本章小结31第四章一种基于区间型二型模糊推理的 Sarsa() 算法 .324.1近似 Q值函数的计算和参数的更新.324.2I2FI-Sarsa()算法的学习过程.344.3算法收敛性分析354.4仿真实验394.4.1实验设置.404.4.2实验分析.414.5本章小结43第五章一种带有自适应基函数的模糊值迭代算法445.1基函数的近似性能评价445.2基函数的自适应
16、细化更新方式465.3ABF-QI算法 475.3.1 ABF-QI算法的学习过程 475.3.2算法收敛性分析.495.4仿真实验505.4.1问题描述与参数设置.505.4.2实验分析.515.5本章小结54第六章 总结与展望566.16.2总结56展望57参考文献58攻读硕士学位期间发表(录用)的论文及参与的项目65致谢66基于模糊近似的强化学习方法研究 第一章 引言第一章引言人工智能是一门研究如何用人工的方法模拟和实现人类智能的学科,其研究已达到半个多世纪之久,且影响遍及整个社会。由于智能问题的复杂性,具有不同的学科背景或不同的研究应用领域的学者,在不同的角度,用不同的方法,沿着不同的
17、途径对人工智能本质进行探索。本文从人工智能中一个重要的分支-机器学习中的强化学习方法出发,研究其在应用中存在的局限性及相应的解决方案。1.1研究背景及意义近年来,人工智能研究的主要挑战和发展方向之一就是机器学习。机器学习与计算机科学、心理学、认知科学等各种学科都有着密切的联系,牵涉的面也相对较广,且许多理论及技术上的问题尚处于研究之中。在机器学习领域,根据学习机制的不同,常见的机器学习方法可分为监督学习(Supervised learning)、非监督学习(Unsupervisedlearning)和强化学习(Reinforcement learning, RL)1-3。其中强化学习是指通过从
18、环境状态到动作映射的学习,使 Agent从环境中获得的累计奖赏值最大。强化学习最早是从控制论、统计学、心理学等相关学科发展而来,直到 20世纪 80年代,其相关的学习技术才在人工智能、机器学习和自动控制领域中得到广泛研究和应用,并被认为是设计智能 Agent 的核心技术 之一4。特别是随着强化学习的数学基础研究取得突破性进展后,学者对强化学习的研究和应用日益开展起来,其成为目前机器学习领域的研究热点之一5。强化学习要解决这样的问题:一个能够感知环境的自治 Agent,怎样通过学习选择能达到其目标的最优动作。这个很有普遍性的问题应用于学习控制移动机器人、在工厂中学习最优操作工序以及学习棋类对弈等
19、。当 Agent在其环境中应用动作时,环境会提供奖励或惩罚信息,以表示结果状态的正确与否。例如,在训练 Agent进行棋类对弈时,环境可在游戏胜利时给出正回报,而在游戏失败时给出负回报,其他时候零回报。Agent 的任务就是从 这个非直接的、有延迟的回报中学习,以便后续的动作可以产生最大的累积回报。1第一章 引言 基于模糊近似的强化学习方法研究大多数强化学习方法都建立在马尔科夫决策过程的理论框架之上,通过将强化学习问题建模为马尔科夫决策过程(Markov decision process, MDP),使环境的当前状态向下一状态转移时的概率和奖赏值只取决于当前的状态和所选择的动作,而与历史状态和
20、动作无关。如果在学习过程中 Agent无需学习马尔科夫决策模型知识,而直接学习最优策略,则该方法称为模型无关法(Model-free),常见的 Q 学习算法和 Sarsa算法都属于该类型;而在学习过程中先学习模型知识,然后根据模型知识推导优化策略的方法,则称为基于模型法(Model-base) ,经典的动态规划(Dynamic programming, DP)和 Dyna-Q都属于该类型的算法 1。国际期刊Machine Learning分别在 1992年和 1996年出版了强化学习的专辑,着重登载数篇强化学习的理论研究论文6,Robotics and Autonomous System在 1
21、995年也出版了强化学习的专刊,主要介绍关于强化学习在智能机器人上的应用情况7,8。美国国家科学基金会于 2006年召开了近似动态规划论坛(NSFADP06)。IEEE分别于2007 年和 2009 年召开了以“动态规划与强化学习” 为主题的国际研讨会 (IEEEADPRL2007、IEEE ADPRL2009) 。IEEE 计算机学会于近年专门成立了近似动态规划与强化学习的技术委员会(IEEE TC on ADPRL)。随着国内外 对于强化学习理论和应用重视程度的不断提高,目前强化学习已经成为过程控制、作业调度、路径规划、WEB 信息搜索、证券管理、期权定价等领域,对目标行为优化的一种重要技
22、术9,10,11,12,13。虽然强化学习已在上述很多领域取得了实际而有效的应用,然而其进一步研究和应用也面临着一定的困难,这些困难通常分为如下几种:(1)问题空间规 模过大。此类问题一般都具有非常大的或连续的状态和(或)动作空间。由于策略空间是状态空间和动作空间的笛卡尔乘积,所以当空间规模较大时,从策略空间中获得最优策略将会非常耗时。(2)环境模型未知。 该类型的问题通常都具有未知的环境模型,常见的基于模型方法(比如 动态规划 ) 不适用于求解此类问题,因而需要寻找满足实际模型情况的算法。(3)训练样本难 以获得或所得的样本质量不高。当问题的环境模型未知时,训练样本不能通过类似监督学习的方法
23、获得,且由于强化学习只能通过在线地与环境交互以获取样本,这会导致样本的质量不高。2基于模糊近似的强化学习方法研究 第一章 引言当前强化学习的研究热点是如何设计出更有效的算法,该类算法能在线地处理环境模型未知、且规模较大的现实世界问题。传统的强化学习算法由于其自身的局限性(即通常比较适合求解离散的小状态空间的问题),在处理上述大空间或连续空间的问题时,往往会面临收敛速度慢甚至无法收敛的问题。目前基于强化学习来求解上述大空间或连续空间问题的方法主要有以下三种:(1)通过聚类等方法对问题空间进行离散化和降维,然后利用表格式强化学习方法解决问题14-15。但此 类方法通常会面临离散精度和参数空间复杂度
24、的权衡问题,而且无法保证收敛到全局最优解;(2) 采用任务分解的思想,将分层和并行等技术用于改进强化学习方法,充分利用任务分解的抽象化思想和计算方式来解决强化学习问题16-18。该类方法的关键点是如何有效地进行任务分解,以及如何使多个 Agent有效协作;(3) 将强化学习与函数近似相结合,利用函数近似方法来对强化学习中的值函数映射或策略映射进行建模,通过样本以近似真实的映射模型19-22 。在结合函数近似的强化学习方法中,所学习的经验信息能够从部分状态空间泛化至整个状态空间。本文主要关注第三类方法,讨论将模糊推理作为函数近似方法用于强化学习算法中,以求解大空间或连续空间的强化学习问题。1.2
25、研究现状自从 20世纪 90年代,国际人工智能联合会(IJCAI)就将强化学习技术作为一个独立的方向加以研究。美国、德国、日本等国都在开展有关强化学习的理论和应用研究,如日本的 Sony 公司将强化学 习应用于工业机器人的控制领域,取得较好的效果;Sigh将复合 Q学习算法用于机器人的任务规划和协调23;Crites和 Barto采用结合广义策略迭代的 TD()算法和神经网络近似器进行电梯调度优化24;Macek 等人将强化学习技术用于机器人避障;Tham等采用模块化 Q学习算法实现了机器人手臂的任务分解和控制25;Littman等人将强化学习用于网络自动修复26;Kamio S 和 Iba
26、H 将遗传规划融入强化学习算法用于仿真机器人的学习27;Andrew Y Ng 等人借助强化学习实现直升机的自主飞行28;Pallavi A等人将强化学习 用于多通道无线网络监控及信道优化问题29。近年来,我国在中科院自动化所、中国科技大学、南京大学、哈尔滨工业大学、苏州大学等研究机构的努力下,对强化学习技术的理论研究和工业应用也逐步3第一章 引言 基于模糊近似的强化学习方法研究开展起来。中国科技大学的蔡庆生等人提出了基于 Agent团队的强化学习模型,并将其应用到机器人足球赛中30;南京大学高阳等利用强化学习技术实现高速公路路面破损图像的智能识别31;陈春林等人提出将强化学习与量子算法相集成
27、,设计出高效快速的新算法32;哈尔滨工业大学张汝波等人将分布式强化学习算法用于多机器人动态编队33;苏州大学刘全等人将强化学习算法应用于 Deep Web信息搜索34。尽管对强化学习的研究和应用已取得突破性进展,但由于强化学习问题本身的复杂性,强化学习方法的广度和深度应用依旧面临着一定困难。其中最为显著的便是使用强化学习方法求解大空间或连续空间的强化学习应用时,所产生的“维数灾” 问题,而该问题也是制约强化学习应用于大规模现实问题的最主要原因。1.1 节中提及的几类解决大空间或连续空间问题的第三种方法中,有效的将函数近似应用于强化学习算法是当前强化学习研究所主要围绕的内容之一。函数近似是机器学
28、习研究领域一个传统的课题。早期的工作主要是研究怎样用函数近似方法解决监督学习中的回归任务。回归任务的目标是寻找一个函数,该函数通过样本数据的训练后,可泛化表示输出值。通常一个回归算法都有一个损失函数,该损失函数定义了函数的估计值与真实值之间的差距35。函数近似一般情况下可以分为参数化近似和非参数化近似,其中参数化近似又可分为线性函数近似与非线性函数近似:在参数化函数近似中,近似模型的形式和参数个数需要预先设定,自由度相对较小。其中的线性函数近似简单且有收敛性保证,但泛化能力在某些情况下不能满足设定的要求;而非线性函数近似虽然具有较强的泛化能力,但收敛性难以保证;在非参数函数近似中,近似模型由数
29、据驱动,是一种基于样本的近似模型。由于其完全依赖于样本而可以获得较好的泛化性能,但带来的是收敛性难以保证,且其计算复杂度会因样本数的增加而增加35。由于函数近似是实现学习机具有泛化能力的必要手段,这些类别的函数近似方法均可用于求解大规模的强化学习问题。当前研究强化学习的学者们广泛的从各个角度开展开来,研究如何将上述类别的函数近似方法更好的应用于强化学习算法中。Ernst和Geurts等人提出基于极限树和随机树结构的批量RL算法,该算法可以从样本中提取有效的信息以获取最有控制策略,且对严格收敛和条件收敛作出了理论分析 36。Farahmand等人从用于 强化学习算法的线性和非线性函数近似的不足之
30、处出发,将L2正则化方法应用于已有的值函数近似方法中,提出的正则化拟合Q 值迭代算法可以用4基于模糊近似的强化学习方法研究 第一章 引言较少的样本数目获得较好的泛化能力 37。Boyan将已有的最小二乘 TD()方法改进为增量式的监督线性回归方法,其能够有效地利用样本,且可以自适应的调整步长参数38。Sutton等人于2009年提出了梯度TD(gradient TD, GTD)学习算法,该算法将TD学习算法与线性函数近似相结合,同时引入一个基于Bellman误差的新的目标函数39。Sherstov等人于2005年提出一种基于在线自适应 Tile-Coding编码的线性函数近似算法,通过实验验证
31、了算法的有效性40。Heinen 等人于 2010年提出利用增量式概率神经网络来近似强化学习问题的值函数,可以较好地求解连续状态空间的问题41。上述为目前常见的基于函数近似的强化学习算法类型,其主要的函数近似方法借鉴了监督学习中函数近似方法的应用。模糊推理作为控制理论中的一种重要方法,在与强化学习方法结合以获得行为策略时可以起到有效的作用。其已广泛的被作为函数近似方法作用于强化学习中,特别是与 Q学习算法的 结合42。Glorennec等人提出的模糊 Q学习以及 Jouffe对 模糊 Q学习的补充43 对后续模糊 RL算法的实现提供了一个基本理论。在该方法中,将状态作为模糊推理的输入,先通过基
32、于先验知识设定的规则库的模糊推理来选择执行动作和对应的 Q值,然后再迭代更新 Q值函数。Berenji提出的基于智能控制结构的泛化近似推理(GARIC)方法44,对上述方法进行了扩展。在该框架中,每一个 Agent都表示一个 GARIC系统,而且所有被激活的 Agent 的 Q值和模糊规则库都会在执行一个动作后进行更新。Horiuchi等人提出了用于连续状态和动作空间的模糊插值 Q学习方法,使用 TSK-FIS以近似 Q 值函数,并详细分析了插值策略的好坏45。Dai 等人提出了一个使用神 经网络计算动作值函数的方法,该方法还通过模糊推理来动态的调整执行动作,以使 FIS的输出部分是最合适的动
33、作分量46。基于 Q学习的模糊 RL方法都属于离策略(Off-policy)方法4,而使用函数近似的离策略方法往往不满足算法收敛性的要求 47。另一类基于时间差分(Time difference,TD)思想的在策略 (On-policy)方法,在使用满足一定条件的函数近似方法时,可以满足算法收敛性的要求。Tokarchuk 等人将模糊推理系统作为线性函数近似器,用于在策略 Sarsa方法中。 该方法对连续状态进行模糊聚集,可以有效的减少状态表示,并通过实验验证了方法的有效性 48。Sylvain 等人同样提出一种基于模糊推理的 Sarsa算法,且该算法使用一种新颖的替代迹(Replacing
34、eligibility traces)来加快策略评估速度,此外还可以较好的适用于噪声环境中49。Vali等人提出一种改进的模糊 Sarsa算5第一章 引言 基于模糊近似的强化学习方法研究法,该方法以模糊推理近似动作值函数,并基于每条规则的激活度在线(On-line)更新规则的后件参数。此外,作者还从理论上证明了所提算法的收敛性50。上述基于将模糊推理作为函数近似的强化学习方法所用的模糊推理理论都是基于一型模糊集(Type-1 fuzzy sets,T1FS),该种类型的模糊集合具有一定的处理不确定性的能力。当 MDP的环境或者 执行动作存在较严重的噪声干扰,或者对算法的稳定性要求较高时,可以使
35、用基于二型模糊集(Type-2 fuzzy sets,T2FS)的模糊推理,该类型的模糊集合已经被分析说明或多种实验证实是一种比 T1FS有更强的处理不确定性能力的模糊集合51。但 T2FS在提高处理不确定性能力的同 时,也带来了计算复杂度增加的副作用。因而,将 T2FS应用于模糊推理时 ,选择合适的 T2FS 隶属度函数形式也是需要考虑的地方。当前只有极少的算法将 T2FS应用于 RL 算法中52,53,且这两种算法都是基于 Q学习,存在着算法可能不收敛的 问题。有上述分析可以看出,适用于 RL算法的函数近似方式有很多种。其中在使用 线性函数近似以近似状态或状态动作值函数的方式中,在给定用于
36、函数近似的基函数形式后,可以通过动态规划(Dynamic programming, DP)或者 RL算法计算近似器的参数54。然而,如何寻找一个适应于当前问题的基函数(Basis function, BF),也是线性函数近似需要考虑的一个重要方面55。最直接的选择 BFs的方式是提前 设定其个数和形式,此方式主要有两种以下常用的手段:一种是使设定的基函数能够均匀的覆盖状态空间或状态动作空间,但此方法会因为状态或状态动作维度的增加而很容易产生维数灾问题56;另一种是通过设定复杂形式的 BFs以满足需要精确描述的部分状 态或状 态动作空间,但这种对基函数的个数和形状的设定强烈依赖于先验知识,而先验
37、知识在通常情况下并不能被直观发现,且很难在没有评估值函数的情况下直接获得57。为了能够使函数近似器对值函数有更好的近似效果,同时减少上述基函数设定所带来的问题,一种更实用的解决方案是寻找一种方法,该方法可以使线性函数近似器能够自动的寻找适应于实际问题的 BFs ,而不是对 其进行人工的不准确设定58。当前主要有两类以自适应方式寻找 BFs 的方法:基函数 优化(BFs optimization)和基函数构建(BFs construction)。基函数优化方法是在固定 BFs个数的情况下寻找基函数最合适的位置和形式59;基函数构建则不固定 BFs 个数,而是通过增加新的 BFs 或删除旧BFs的
38、方式来提高近似精度,且新增加的 BFs可以有不同的形式 60。常用的基函数构6基于模糊近似的强化学习方法研究 第一章 引言建方式有基函数细化(BFs refinement ),基函数选择(BFs selection)和基于 Bellman误差的基函数构建。其中,基函数细化是基函数构造类别中被广泛使用的一种方法。其按照一种“自顶 向下” 的工作方式,开始 设定的 BFs个数较少,并在后续过程中按照特点的要求添加 BFs。一般把基函数细化分为局部细化和全局细化两种工作方式,局部细化方式首先评估状态或状态动作空间中特定区域的值函数是否可被精确的近似出来,然后在近似精度不足时增加新的 BFs。当前已有
39、 许多学者提出基于 该思想的自适应基函数细化方法:(1)与 Q 学习相关的算法: Reynolds 于 2000 年提出了对计算连续状态 Q 值函数算法的基函数改进与更新方法61;Ratitch 和 Precup 于 2004年使用线性局部的函数近似方法将高维输入空间在线自适应的映射到较小的存储空间中,该方法可以有效的管理存储空间62;Waldock和 Carse在 2008年将模糊分层划分的思想应用于模糊 Q学习算法中,有效的实现了基函数细化 63。(2)基于 V 值迭代相关的算法:Munos 和Moore 于 2002 年给出了一种“ 自顶向下”的基函数 细化方法,并详细的对多种评价准则进
40、行了比较64。(3)与 Q 值迭代相关的算法:Munos于 1997提出了一种新的基于模型(Model-based)的 Q值迭代算法,算法根据值函数的不规则性给出了三角基函数网眼的细化方法65;Uther和 Velso于 1998年扩展了 U树算法,并将该算法用于未设定初始离散状态,且状态空间连续的 RL算法中66。1.3研究内容本文主要讨论如何将模糊推理作为函数近似方法并应用于强化学习算法中。首先介绍一些常用函数近似方法,并给出他们的优点和不足之处;然后着重介绍当前模糊推理作为函数近似方法应用于强化学习算法时的一些不足和需要改进的地方,并针对这些不足和存在的一些问题,分别给出了两个基于一型和
41、二型模糊推理的强化学习算法,同时分析算法的收敛性;此外,还针对基于模糊推理的强化学习算法人工设定基函数的这一不足之处,给出了针对模糊规则的基函数细化方法,同样的从理论上给出了收敛性分析。大概研究内容主要分为以下三个部分:(1)传统的使用一个模糊推理系统的值函数近似模型的改进。虽然基于模糊推理系统的强化学习算法已经可以有效的加快收敛速度,但传统的基于一个模糊推理系统7第一章 引言 基于模糊近似的强化学习方法研究的,并可用于求解关于状态的连续行为策略的 Q 值迭代算法,依旧存在由于某些原因而导致收敛速度慢的问题:算法的某一轮迭代会出现状态动作对所对应的 Q 值不唯一的情况。若算法进入下一轮迭代时,
42、需要用到的状态动作对的 Q 值恰好是上述 Q值不唯一的情况。此类算法会简单的随机选择一个状态动作对所对应的 Q 值,而并没有固定的选择策略,或者固定选择策略也不一定有效。由于算法在整个的迭代过程中会多次出现这种情况,他会较大的减缓该类型算法的收敛速度。针对上述问题,本文提出一种基于双层模糊推理的算法DFR-Sarsa()(Sarsa()based on double-layer fuzzy reasoning, DFR-Sarsa(),并在理论上证明其收敛。该算法在进行两层推理时,首先以状态为输入,通过第一层模糊推理求解连续动作;其次将求得的连续动作作为第二层模糊推理的输入,求解第一层模糊推理
43、中每一条激活规则的 Q值分量;最后通过两层模糊推理的结合,获得 输入状态的 Q 值。另外,在DFR-Sarsa()中定义了一种新的资格迹,该资格迹的更新基于梯度下降方法,且依赖于两层模糊推理中激活规则的隶属度。将 DFR-Sarsa()及对比算法用于 Mountain Car和 Cart-pole Balancing 仿真平台,实验结果表明,DFR-Sarsa()可以获得连续行为策略,且具有更好的收敛性能。(2)传统的基于一型模糊推理的 RL 算法存在收敛性能不足和对噪声干扰缺乏鲁棒性的问题。当 MDP的环 境或者执行动作存在较严重的噪声干扰,或者相关问题对算法的稳定性要求较高时,可以使用基于
44、 T2FS的模糊推理, 该类型的模糊集合已经被分析说明或多种实验证实是一种比 T1FS有更强 的处理不确定性能力的模糊集合。针对上述传统的基于一型模糊推理的 RL算法存在收 敛性能不足和对噪声干扰缺乏鲁棒性的问题, 本文提出一种基于 区间型二型模糊推 理的 Sarsa()算法-IT2FI-Sarsa()(Sarsa() based on Interval type-2 fuzzy inference, IT2FI-Sarsa()),并从理论上分析其收敛性。IT2FI-Sarsa()以求解小状 态空间或离散状态空间的 Sarsa()算法为基础,首先将动作空间进行离散化,并将大状态空间或连续状态空
45、间进行二型模糊划分,且该划分使用一种新颖的可以使二型模糊推理的降型存在闭合解的椭圆形隶属度函数;然后以状态为前件的输入,动作及对应的 Q 值为后件的输出来构建模糊规则库,模糊推理根据该种形式的规则库推理获得 Q 值;最后,使用梯度下降方法更新参数向量,以使算法收敛,并最终获得最优行为策略。将 IT2FI-Sarsa() 应用于仿真实验,结果表明该算法不仅可以获得较好的收敛性能,还对噪声干扰具有较强8基于模糊近似的强化学习方法研究 第一章 引言的鲁棒性。(3)提出一种改进的基函数细化方法。该方法以模糊 Q 值迭代算法为基础,将模糊规则集中前件部分的模糊集作为 BFs ,并将层级 模糊规则构建的思
46、想应用于本文提出的自适应BFs细化中,提出一种 带有自适应基函数的模糊 值迭代算法(Adaptive basisfuzzy Q iteration, ABF-QI)。算法的基函数选取采用 “自顶向下”的自适应更新方式,首先根据初始设定的基函数计算值函数,再根据性能评价准则选择需要细化的基函数,最后采用分层更新的方式调整基函数的个数和形状。实验结果表明,ABF-QI算法可以根据实际的问题自适应选择合适的基函数,且能以更快的速度收敛到最优解。1.4论文组织结构本文共六章,具体内容按如下方式组织:第一章介绍了本研究工作的实用价值与理论意义,以及研究主题范围内国内外已有的文献综述和本文要解决的问题。第
47、二章介绍本文研究内容所需的相关理论基础。首先介绍马尔科夫决策过程,它是当前强化学习的理论基础;其次简单介绍一型和二型模糊逻辑;然后介绍线性值函数近似框架;最后介绍基于模型的值迭代算法。第三章介绍一种带有资格迹的基于双层模糊推理的在策略强化学习算法DFR-Sarsa()。本章主要讨论如何使用两层模糊推理来近似值函数,并获得关于状态的连续行为策略。第四章提出了一种基于区间型二型模糊状态划分的 Sarsa()算法IT2FI-Sarsa(),讨论如何使用新颖的可以使降型存在 闭合解的椭圆形二型模糊隶属度函数来划分连续状态空间,进而获得具有较好收敛性能和对噪声干扰有鲁棒性的算法。第五章提出一种带有自适应
48、基函数的模糊值迭代算法 ABF-QI,介绍如何采用“自顶向下”的自适应更新方式 细化值函数近似模型的基函数,使 ABF-QI算法可以根据实际的问题自适应选择合适的基函数,且能以更快的速度收敛到最优解。第六章对全文的研究工作进行总结,并展望未来的研究工作。9第二章 基础概述 基于模糊近似的强化学习方法研究第二章基础概述本章首先介绍强化学习算法的基础模型-马尔科夫决策过程。其次介绍一型和二型模糊推理用于函数近似的相关知识。然后介绍参数化函数近似用于值函数近似的基本方式。最后给出基于模型的值迭代算法,在使用模糊推理作为函数近似方法时的实现过程。2.1马尔科夫决策过程传统的强化学习方法考虑的是离散空间
49、的问题。当问题扩展到连续空间时,原有马尔科夫决策过程 (Markov decision process, MDP)可描述为一个四元组形式M X ,U, f 4,其中:(1) X 为所有状态的集合,且 xt X 为 Agent在t时刻所处的状态。(2)U为所有动 作的集合,且 ut U 为 Agent在t时刻所采取的动作。(3) : X U 为奖赏值函数,表示 t时刻的状态 xt,在采取动作 ut 并转移到n状态 xt 1时,Agent所获得的立即奖赏 r(xt ,ut )。此外,用 rt表示以 r (xt,ut )为均值的分布所产生的随机奖赏。(4) f : X U X 0,1为 状态转移函数,其中 f (x ,u, x)表示状态 x在采取