1、基于值迭代的MDP算法求解最优策略,姓名:陈丽学号:E13301110,参考文献,石轲,基于马尔可夫决策过程理论的Agent决策问题研究,中国科学技术大学,2010孙湧,仵博, 冯延蓬,基于策略迭代和值迭代的POMDP算法,计算机 研究与发展,2008年刘克,实用马尔可夫决策过程M 北 京 :清华大学出版社 ,2004 鲁庆,基于栅格法的移动机器人路径规划研究,电脑与信息技术,2007年,问题背景描述,利用栅格法对空间划分,搜索一条从起始栅格到终点栅格的路径,构成机器人运动的可行路径。,目标、 吸收状态,障碍物,禁止、 吸收状态,实验内容: 基于值迭代的MDP算法,找出从某状态到达目标状态时,
2、使状态值函数达到最大值的最优策略。,马尔可夫决策过程(MDP),基本的MDP模型是一个四元组:。 例如P(s|s,a),显然 0P(s|s,a)1,并且策略 :指决策者对于特定状态,应选择的动作。MDP决策的策略是将状态映射到动作,同时满足使Agent选择的动作能够获得环境报酬的累计值最大。,值函数,值函数:指对于特定策略和某一状态,执行该策略直到达到吸收状态,所获得的累计回报的期望。值函数为:其中为折扣因子,其目标是让期望值有界,问题陈述,(1)状态空间 S:小机器人有11个活动状态,编号010; (2)动作空间 A: N, E, S, W ,小机器人有北,东,南,西四个可选动作。 (3)状
3、态转移概率模型 P :每个动作以0.8的概率到达动作期望状态,分别以0.1的概率到达动作的两个侧向状态。 (4)状态转移回报模型R:R(10) = +1.0,R(9) = -1.0,R(其他状态) = -0.02。 (5)=0.99 (6)定义状态10和9为吸收状态,第一次到达吸收状态时,获得对应吸收状态回报;,问题陈述,例如P(6)|(5),N = 0.8,P(8)|(5),N = 0.1,P(3)|(5),N = 0.1,P(其他状态)|(5),N = 0.0。,目标、 吸收状态,禁止、 吸收状态,算法设计,一轮迭代后,当各状态的V值变化量小于阀值时,我们称此时找到问题的最优策略;,实验结果,设立阈值THRESHOLD为0.0001,算法经过12轮迭代结束;,结果分析,方格中显示对应状态的V值。,算法改进,动作值函数:,回报函数,根据下个可能到 达的状态的值函数,实验结果,实验结果,结果分析,Thank You !,