基于值迭代的MDP算法求解最优策略.ppt-道客多多

资源描述

1、基于值迭代的MDP算法求解最优策略,姓名：陈丽学号：E13301110,参考文献,石轲，基于马尔可夫决策过程理论的Agent决策问题研究，中国科学技术大学，2010孙湧，仵博，冯延蓬，基于策略迭代和值迭代的POMDP算法，计算机研究与发展，2008年刘克，实用马尔可夫决策过程M 北京：清华大学出版社，2004 鲁庆，基于栅格法的移动机器人路径规划研究，电脑与信息技术，2007年,问题背景描述,利用栅格法对空间划分，搜索一条从起始栅格到终点栅格的路径，构成机器人运动的可行路径。,目标、吸收状态,障碍物,禁止、吸收状态,实验内容：基于值迭代的MDP算法，找出从某状态到达目标状态时，

2、使状态值函数达到最大值的最优策略。,马尔可夫决策过程(MDP),基本的MDP模型是一个四元组：。例如P(s|s,a)，显然 0P(s|s,a)1，并且策略：指决策者对于特定状态，应选择的动作。MDP决策的策略是将状态映射到动作，同时满足使Agent选择的动作能够获得环境报酬的累计值最大。,值函数,值函数：指对于特定策略和某一状态，执行该策略直到达到吸收状态，所获得的累计回报的期望。值函数为：其中为折扣因子，其目标是让期望值有界,问题陈述,(1)状态空间 S：小机器人有11个活动状态，编号010； (2)动作空间 A： N, E, S, W ，小机器人有北，东，南，西四个可选动作。 (3)状

3、态转移概率模型 P ：每个动作以0.8的概率到达动作期望状态，分别以0.1的概率到达动作的两个侧向状态。 (4)状态转移回报模型R：R(10) = +1.0，R(9) = -1.0，R(其他状态) = -0.02。 (5)=0.99 (6)定义状态10和9为吸收状态，第一次到达吸收状态时，获得对应吸收状态回报；,问题陈述,例如P(6)|(5),N = 0.8，P(8)|(5),N = 0.1,P(3)|(5),N = 0.1，P（其他状态）|(5),N = 0.0。,目标、吸收状态,禁止、吸收状态,算法设计,一轮迭代后，当各状态的V值变化量小于阀值时，我们称此时找到问题的最优策略；,实验结果,设立阈值THRESHOLD为0.0001，算法经过12轮迭代结束；,结果分析,方格中显示对应状态的V值。,算法改进,动作值函数：,回报函数,根据下个可能到达的状态的值函数,实验结果,实验结果,结果分析,Thank You !,

展开阅读全文