收藏 分享(赏)

第06章强化学习(1).ppt

上传人:yjrm16270 文档编号:6349318 上传时间:2019-04-09 格式:PPT 页数:18 大小:1.81MB
下载 相关 举报
第06章强化学习(1).ppt_第1页
第1页 / 共18页
第06章强化学习(1).ppt_第2页
第2页 / 共18页
第06章强化学习(1).ppt_第3页
第3页 / 共18页
第06章强化学习(1).ppt_第4页
第4页 / 共18页
第06章强化学习(1).ppt_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、,Automation and Control Engineering Series,强化学习(1),1 介绍,1.3 关于本书,1.2 动态规划与强化学习中的逼近,前言(1),动态规划(DP),强化学习(RL),解决最优控制问题,需要行为模型,不需要行为模型,在一段时间里,为获得预期目标,选择哪些动作(决策)应用于系统。 目标:是优化长期性能,即与环境交互过程中的累计奖赏。 奖赏:奖赏用于评价一步决策性能。,自动控制,人工智能,运筹学,医学,经济学,应用:,自动控制:控制器接收来自过程的输出指标(状态,奖赏),通过控制器的决策,对过程采取一些动作,产生满足某种要求的行为。决策者是控制器,系统

2、是被控制的过程。 人工智能:采取动作,通过感知和影响来监测其所处的环境。决策者是agent,系统是agent所处的环境。,前言(2),控制器,过程,动作,输出,智能agent,环境,动作,感知,自动控制,人工智能,DP: 需要系统模型。 优点:几乎不需要对系统做任何假设,可以具有非线性和随机性。 构造模拟模型比衍生一个解析模型容易,特别是对随机情况。,前言(3),RL: 不需要系统模型。(事先对系统无法全面感知,代价太大,无法得到) 优点:系统中得到的数据来工作,不需要行为模型。 离线RL,在线RL。 如有模型,可用模型替代实际系统,产生数据。,1.1 动态规划与强化学习问题(1),DP和RL

3、问题的主要要素是通过它们之间的交互流联系在一起: 过程为控制器提供目前所处的状态。 控制器根据目前的状态,为过程提供应采取的动作。 过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。,1.1 动态规划与强化学习问题(2),目标:避开障碍物,从底端到达右上角的目标。 控制器(agent):机器人的软件,决策算法。 过程(环境):与机器人密切相关的环境(地面、障碍物、目标等)。用于决策的物理实体、传感器和执行器。,goal,obstacle,1.1 动态规划与强化学习问题(3),状态(x):机器人的位置(直角坐标)。 动作(u):机器人走一步(直角坐标)。 迁移函数(f):从目前的位置走一步

4、,到达下一位置,遇到障碍变复杂。 奖赏函数():产生奖赏(r),评价迁移的质量。目标:+10;障碍:-1;其他:0,可构造带更多信息的奖赏。 策略(h):从状态到动作的映射。,goal,obstacle,1.1 动态规划与强化学习问题(4),在DP和RL中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构成。 主要考虑折扣无限水平回报,即累积回报开始于初始时间步k=0,沿(可能)无限长的轨迹,对得到的奖赏值进行累积,通过一个因子0,1对奖赏加权,这个因子随着时间步的增加呈指数地减少。,goal,obstacle,“远视”程度,1.1 动态规划与强化学习问题(5),奖赏依赖于所遵循的状态-

5、动作轨迹,每个奖赏rk+1是迁移(xk,uk,xk+1)的结果,状态-动作轨迹依赖于使用的策略:,DP和RL的核心挑战 得到一个解,通过由立即奖赏构成的回报优化长期性能。 解DP/RL问题转化为找最优策略h*问题,即对每个初始状态,使其回报最大化。 得到最优策略的方法: 计算最大的回报:,1.2 动态规划与强化学习中的逼近(1),为保证表示的精确性,唯一的方法是,对每个状态-动作对,存储各自的Q函数值(Q值)。,存在问题: 对于机器人的每个位置,以及相应位置可能采取的每个走步,都必须存储其值。 因为位置和走步都是连续变化的,因此可能得到无穷多个不同的值。 使用Q函数的压缩表示。,1.2 动态规

6、划与强化学习中的逼近(2),Q函数的压缩表示步骤: 在状态空间中,定义有限个BF,1, N (径向基函数,Tile 编码,粗糙编码等)。 动作空间被离散化为有限多个动作(导航实例中,“最近邻”离散化为left, right, forward, back四个动作)。 对于每个状态动作对,不再存储各自的Q值,而是存储参数向量。一组BF和一个离散动作的结合都对应的一个参数向量 ,的维数与向量 相同。,状态依赖基函数,动作离散化,对于每个状态x,通过公式 ,计算出相对应的1, N 。 “forward”对应的向量为: 线性方法,状态动作对(x,forward)对应的近似Q值为:,1.2 动态规划与强化

7、学习中的逼近(3),状态依赖基函数,DP/RL算法只需要保存4N个参数,当N不太大时,这一点能很容易做到。 这种函数的表示方法能泛化到任意DP/RL问题。 即使对具有有限数目的离散状态和动作的问题,压缩表示可以减少值的数目,使其更容易存储。 并非所有的DP和RL算法都使用Q函数,它们通常也需要压缩表示,因此可以扩展到一般情况。,1.2 动态规划与强化学习中的逼近(4),近似表示,为了得到一个近似的最优策略,采取动作,使得Q函数最大化。 在大的或连续的状态空间中,这种优化问题潜在地存在很大的困难,通常只能被近似地解决。 使用离散动作函数时,足以计算所有的离散动作的近似Q值,通过枚举即可以找到这些

8、Q值中的最大值。,1.2 动态规划与强化学习中的逼近(5),近似最优策略,如果算法是迭代的,使用逼近算法能否收敛?或如果算法是迭代的,它能得到一个有意义的解吗? 如果得到有意义的解,它接近最优吗?更确切地说,它距离最优解有多远? 算法是否具有一致性,即随着逼近呈指数的增长,算法是否逐渐收敛到最优解?,1.2 动态规划与强化学习中的逼近(6),需要考虑的问题,对给定的问题,选择一个适当的函数逼近器,是一个非常常见的任务。 由于函数逼近器的复杂性直接影响到DP和RL算法的存储和计算代价,因此必须对它进行有效控制。 由于越复杂的逼近器需要的数据量越大,因此在近似RL中,对得到的数据量的限制也同样重要。 如果能得到关于激励函数的先验知识,可以提前设计一个低复杂度、但仍然精确的逼近器。 本书中我们特别关注的是自动寻找适合某一问题的低复杂度的逼近器,而不是依靠手工设计。,1.2 动态规划与强化学习中的逼近(7),函数逼进器的选择,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 中等教育 > 职业教育

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报