收藏 分享(赏)

基于值迭代的MDP算法求解最优策略.ppt

上传人:HR专家 文档编号:8466427 上传时间:2019-06-29 格式:PPT 页数:15 大小:310.50KB
下载 相关 举报
基于值迭代的MDP算法求解最优策略.ppt_第1页
第1页 / 共15页
基于值迭代的MDP算法求解最优策略.ppt_第2页
第2页 / 共15页
基于值迭代的MDP算法求解最优策略.ppt_第3页
第3页 / 共15页
基于值迭代的MDP算法求解最优策略.ppt_第4页
第4页 / 共15页
基于值迭代的MDP算法求解最优策略.ppt_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、基于值迭代的MDP算法求解最优策略,姓名:陈丽学号:E13301110,参考文献,石轲,基于马尔可夫决策过程理论的Agent决策问题研究,中国科学技术大学,2010孙湧,仵博, 冯延蓬,基于策略迭代和值迭代的POMDP算法,计算机 研究与发展,2008年刘克,实用马尔可夫决策过程M 北 京 :清华大学出版社 ,2004 鲁庆,基于栅格法的移动机器人路径规划研究,电脑与信息技术,2007年,问题背景描述,利用栅格法对空间划分,搜索一条从起始栅格到终点栅格的路径,构成机器人运动的可行路径。,目标、 吸收状态,障碍物,禁止、 吸收状态,实验内容: 基于值迭代的MDP算法,找出从某状态到达目标状态时,

2、使状态值函数达到最大值的最优策略。,马尔可夫决策过程(MDP),基本的MDP模型是一个四元组:。 例如P(s|s,a),显然 0P(s|s,a)1,并且策略 :指决策者对于特定状态,应选择的动作。MDP决策的策略是将状态映射到动作,同时满足使Agent选择的动作能够获得环境报酬的累计值最大。,值函数,值函数:指对于特定策略和某一状态,执行该策略直到达到吸收状态,所获得的累计回报的期望。值函数为:其中为折扣因子,其目标是让期望值有界,问题陈述,(1)状态空间 S:小机器人有11个活动状态,编号010; (2)动作空间 A: N, E, S, W ,小机器人有北,东,南,西四个可选动作。 (3)状

3、态转移概率模型 P :每个动作以0.8的概率到达动作期望状态,分别以0.1的概率到达动作的两个侧向状态。 (4)状态转移回报模型R:R(10) = +1.0,R(9) = -1.0,R(其他状态) = -0.02。 (5)=0.99 (6)定义状态10和9为吸收状态,第一次到达吸收状态时,获得对应吸收状态回报;,问题陈述,例如P(6)|(5),N = 0.8,P(8)|(5),N = 0.1,P(3)|(5),N = 0.1,P(其他状态)|(5),N = 0.0。,目标、 吸收状态,禁止、 吸收状态,算法设计,一轮迭代后,当各状态的V值变化量小于阀值时,我们称此时找到问题的最优策略;,实验结果,设立阈值THRESHOLD为0.0001,算法经过12轮迭代结束;,结果分析,方格中显示对应状态的V值。,算法改进,动作值函数:,回报函数,根据下个可能到 达的状态的值函数,实验结果,实验结果,结果分析,Thank You !,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报