收藏 分享(赏)

强化学习导论 习题册.doc

上传人:精品资料 文档编号:10633656 上传时间:2019-12-10 格式:DOC 页数:12 大小:329.50KB
下载 相关 举报
强化学习导论 习题册.doc_第1页
第1页 / 共12页
强化学习导论 习题册.doc_第2页
第2页 / 共12页
强化学习导论 习题册.doc_第3页
第3页 / 共12页
强化学习导论 习题册.doc_第4页
第4页 / 共12页
强化学习导论 习题册.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、1强化学习导论 习题册一、强化学习相关问题1. 请列举三个能够用强化学习框架描述的例子,并确定每个例子的状态、动作以及相应的回报值。请尽量列举三个不同的例子,并针对其中一个例子,归纳在建模过程中的一些限制因素。答:迷宫,俄罗斯方块等。2. 强化学习框架是否能够用来描述所有的具有目标导向的任务?如果不可以,你是否可以举一个反例?答:可以。3. 驾驶问题。你可以根据油门、方向盘、刹车,也就是你身体能接触到的机械来定义动作。或者你可以进一步定义它们,当车子在路上行驶时,将你的动作考虑为轮胎的扭矩。你也可以退一步定义它们,首先用你的头脑控制你的身体,将动作定义为通过肌肉抖动来控制你的四肢。或者你可以定

2、义一个高层次的动作,比如动作就是目的地的选择。上述哪一个定义能够正确描述环境与 Agent 之间的界限?哪一个动作的定义比较恰当,并阐述其原因?答:第一个动作的定义比较恰当,Agent 与环境的界限是指有 Agent 所能绝对控制的的范围,并不是指有关 Agent 所有的信息,题中将司机抽象成一个 Agent,那么,由司机所能直接操作的只有油门,刹车和方向盘。4. 假设将平衡杆问题抽象成一个情节式任务,同时也添加折扣因子来计算回报值(对于每个状态的立即奖赏,设定失败状态的奖赏为 0,其他状态的奖赏为-1) 。在该情况下,每个状态的回报函数如何设定?该回报函数与公式(3.2)有何不同?答:回报函

3、数: Kkkttttt rrrR01121 与公式(3.2)的区别就是,在任务描述中是否存在吸收状态,在公式中的体现就是,对立即奖赏的累加是否无穷。5. 机器人迷宫问题。对其中的奖赏做如下设定,机器人走出迷宫,奖赏为1,而在其它情况下奖赏为 0。这个任务看上去可以抽象成一个情节式任务(以走出迷宫作为一个情节的结束) ,目标是将期望回报值最大化,如公式(3.1)所示。但是在 agent 学习一段时间后,你会发现对于 Agent 来说,走出迷宫的任务毫无进展。那么,这里问题出在什么地方?如何做出改进提高性能?答:问题出在回报值的设定上,题中设定,机器人走出迷宫的奖赏为+1,其他情况为0,那么,对于

4、每个状态来说,根据公式(3.1) ,每个状态的回报值都为+1,因此对于机器人的走向没有任何的导向作用。对于该问题的改进可以使用上个问题的回报函数,即添加折扣因子。或者,对于回报可以按一下方式进行设定,走出迷宫奖赏为 0,其他情况奖赏为-1。6. 破损视觉系统问题。假设你是一个视觉系统。当你第一次开机的时候,一整幅图像涌入你的摄像头。你能够看到很多东西,但不是所有东西,比如你无法看到被某一物体遮挡住的东西,或者是你背后的东西。在你看到第一个场景之后,你是否可以认为,你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态?再假设你是一个破损的视觉系统,你的摄像头坏了,这种情况,你接收不到任何影像,

5、那么在这种情况下,是否可以认为你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态?2答:如果一个状态包含所有环境相关信息,我们就认为这个状态具有马尔科夫性。在第一种情况下,状态不具有马尔科夫性,问题中也强调,视觉系统无法看见遮挡住的和背后的东西,因此,该状态不具有马尔科夫性。在第二种情况下,可以认为具有马尔科夫性,你接收不到不到任何影像,你也可以认为,你说处的环境,就是你所感知的,认为,你所知道的环境信息就是包含了所有相关信息,因此,可以认为具有马尔科夫性。7. 对于一个有限的马尔科夫决策过程,奖赏值数量有限,结合公式 3.5,给出状态转移函数和回报函数。答: ,|Pr1 asstttas

6、 | 1ERtttts 8. 请给出动作值函数的 Bellman 等式 。等式必须包含 和 。参考Q),(as),(sQ回溯图 3.4 及公式(3.10) 。答: ,|),( asREasQtt ,|01kttktr,|021 kttktt asE ,|),(0 2 kttktassa asrRP),(),( asQassa9. 根据 Bellman 等式(3.10)可以计算每一个状态的 ,如图 3.5b 所示。比如对于图中V0.7 这个值来说,可以根据其四周的+2.3,+0.4,-0.4 和+0.7 这四个值计算得出。试计算图中其他值,根据公式 3.10,验证每个值的正确性。答:略。10.

7、在例子格子世界中,到达目标状态设定奖赏为正值,到达边界状态设定奖赏为负值,其他状态奖赏为 0。这样的设定是否必要,或者仅仅是为了区分不同状态的回报值?对于每个状态的立即奖赏加上常量 C,每个状态的回报值加上常量 K,在不影响每个状态回报值与立即奖赏关系的前提下,试根据公式(3.2) ,将 K 用 C 和参数 来表示。答:设状态的回报值为 x,立即奖赏为 y )(),()( sVRpasKsVas sasKVC)(3即: )1(CK11. 考虑在情节式任务中,对每个状态的立即奖赏加上一个常量 C,比如迷宫问题。这样对最终结果是否有影响?这种情况对于连续式任务是否有影响,比如针对上一个问题中的格子

8、世界?给出解释。答:,对于最终的结果没有影响,通过学习,最终是要能够得出一组最优策略,而对于每个状态的具体值是多少不关注,关注的是值之间的一个差异性。12. 每个状态的状态值函数的值是由当前状态下的动作值函数的值以及动作的选择概率说确定的。我们可以用一幅回溯图来表示它们之间的关系:根据上图,给出 和 之间的等量关系。)(sV),(aQ答: ,)(sa13. 动作值函数的值 可以被分成两部分,期望立即奖赏值,该值不依赖与策略 ,),(s 和后续回报值的累加和,该值依赖于后续状态和策略 。我们依然用一个回溯图来表示,根节点是一个动作(状态-动作对) ,分支节点是可能的后续状态:根据上图,给出 和

9、之间的等量关系。),(asQ)(sV答: ),( RPsss14. 根据高尔夫球问题,描述最优状态值函数。答:对与每次球的落点,根据动作 driver 和 putter 所能到达的不同落点和每个落点的状态值,确定下一个所要到达的状态,并计算每个状态的状态值函数的值。15. 根据高尔夫球问题,针对 ,描述最优动作值函数。),(*putersQ答: 是指在状态 s 下,采用动作 putter,根据所可能到达的状态,结合),(*putersQ每个状态所能采取的动作,分别是 putter 和 driver,计算 。),(*putersQ16. 针对环保机器人,给出动作值函数的 Bellman 等式。答

10、:略。417. 图 3.8 给出格子世界中的最优状态的最优值函数的值24.4。利用你所了解的最优策略的知识和公式(3.2) ,以数学的形式计算该值,并给出如何利用该值计算周围三个状态值。答:设最优状态的值为 x )(0.9*x4计算得 x=24.4周围三个状态的值都是 x=0+0.9*24.4=22.0二、动态规划1. 假如 是等概率随机策略,试计算 和 . ),1(downQ),7(don答: ),( sVRpasQass0,1down 15)4()7(2. 假设在表格中状态 13 下方添加一新的状态 15,动作分别是:left,up,right,down,分别到达状态 12,13,14 和

11、 15。假设其他初始状态的状态转向没有改变。采用等概率随机策略时, 的值是多少?现假设状态 13 的状态转向发生变化,即采用)(Vdown 时从状态 13 到达状态 15,采用等概率随机策略, 的值又是多少?)15(V答:a. 4/)1(3)12()(15()15 V4/)5420解得: 67.9)(Vb. (1)/)()1()1413VV(2)4325()(5联立公式(1) (2)解得: 09.)06.9)5(注:该题还可以这么考虑,对于状态 15 来说,其实完全是等同于没有加状态15 之前的状态 13(从它的状态转向和相对于吸收状态的位置,并且当状态 15 的值为20,正好满足最终的稳定状

12、态时的值) ,故,其值应该是 20。3. 根据公式(4.3) 、 (4.4)和(4.5) ,试给出对应的动作值函数 。Q答: ,|),( asREasQtt5,|01kttkt asrE ,|),(1Qttt),(, asRPassa),(),(),( 1 Qkassak 4. (编程)根据例 4.2,并改变以下条件,写一个策略迭代的程序解决汽车租赁问题。在租赁一店,有一雇员每晚需要乘公交车回家,而且她的家离租赁二店很近。因此,她很乐意免费将一辆车从一店开往二店。对于其他要移动的车辆每次仍然需要花费 2 美圆。另外,jack 每地的停车场空间有限。假如每地每晚停放 10 辆以上的汽车(在汽车移

13、动之后) ,那么就需要使用第二个停车场,并且需要付额外的 4 美圆(不管有多少车停在那里) 。这类非线性随机问题经常发生在现实生活中,除了动态规划方法,其他的最优策略一般都很难解决这类问题。为了检查所编写的程序,可以先将原始问题所给出的答案复制下来。假如你的电脑比较慢,你可以将汽车的数量减半。答:提示:环境的搭建a. 状态的表示在二维平面中,利用坐标表示状态b. 动作的表示需要移动的车的数量,区分正向和反向(假设正向为从一店移动到二店)c. 立即奖赏由每天租车的数量的盈利、移动费用及停车场费用构成d. 状态的迁移由两个泊松分布及动作决定e. 动作的选择开始采用随机策略(方向定为,从车多的店往车

14、少的店移动)f. 初始状态的回报值都设为 05. 考虑如何利用策略迭代计算动作值函数?参考图 4.3 计算 ,试给出一个完整的算法*V计算 。*Q答:1、初始化对于任意 , , Ss)(sARsQ)(,2、策略评估Repeat 0For each s|)(,|,max( )(,)(,),( )()()(sQv sQsRPQvs ssUntil (一个极小的数)63、策略改进turestablpolicyFor each S ),(maxmaxrg)( sassQRPs If then bfletblpolicyIf then stop ; else go to 2stlepolicy6. 假如

15、仅仅考虑 策略,即在每一状态 s 所选择一动作的概率至少是 。f |)(|/sA以步骤 3-2-1 的顺序,详细描述在图 4.3 中的 的策略迭代算法每步的变化。*V答:考虑动作选择的概率,并添加至更新公式。7. 考虑为什么描述赌徒问题最优策略的曲线会如图 4.6 所示?比如,当赌徒的资金数是50 美元的时候,他一次性压上所有的资金,但是当他的资金数是 51 美元的时候他却不这么做。试说明为什么说这是一个比较好的策略?答:(1)根据问题的描述,赌徒问题的最终目标是能够赢取 100 美元,那么对于策略来说,要求该策略使得赌徒在每一个状态下,能够获得尽量大的赢取概率,这里的赢取概率其实就是回报值。

16、参考图 4.6 的上图,我们发现,对于下图的策略,上图的赢取概率一直在增加,我们可以认为这是一个比较好的策略。(2)其实判断一个策略的好坏,-在 4.2 节中,我们知道,可以通过计算 来),(asQ判断。8. (编程)编程实现,当 p=0.25 和 p=0.55,得到赌徒问题的最优策略。程序执行后,你将很容易解释两个假定的最终状态,最后资金数分别是 0 和 100,反馈值分别设定为0 和 1。将你的结果表示的如同图 4.6 一样。观察你的策略是否稳定,即 ?0答:提示:环境的搭建a. 状态的表示赌徒手中的资金数目b. 动作的表示 )10,min(,2sac. 立即奖赏当资金数达到 100,奖赏

17、为 1,其他为 0d. 状态的迁移赌徒手中资金的改变e. 动作的选择开始采用随机策略(从可选动作中随机选择)f. 初始状态的回报值都设为 09. 参考公式(4.10) ,试给出动作值函数的迭代公式 ?),(1asQk答: ),(max),( 1 sRpasQkssak 7三、蒙特卡罗1. 考虑图 5.2 中右边的两幅图表,为什么值函数在尾部最后两行突然跳高?为什么在最左边一行值又下降了?为什么上图中最突出的值要比下图还要大?答: sum = 20 或 21 时,players policy is sticks,此时 Return = 1 的几率较大,获胜的 1概率较大;dealer 爆点的概率

18、小,获胜的概率大。因为 Ace 即可以当 1 用,又可当 11 用。 2有 Ace 时爆点的概率小,获胜的概率大。因为 Ace 即可以当 1 用,又可当 11 用。 32. 蒙特卡罗估计 Q值的回溯图是什么样的?答:如下图。3. 已知策略 下产生的返回值,则与(5.3)类似的蒙特卡罗对 动作 值的估计计算式是什么?答:Let 和 denote the probabilities of that complete sequence happening ),(aspi ),(sigiven policies 和 and starting from s, taking action a。ssniii

19、apRasQ1),()(,),(其中,在时刻 t81)(1),),(sTtkaskati i kt PPsp 1)(1)()( ),),),( 11sTtkksTtkaskaststi ii kti kt aPPsp ( is the time of termination of the ith episode involving state s. )Ti4. 跑道问题(编程)答:略。5. 修改 first-visit MC 策略估计(图 5.1)算法,使用 2.5 节中介绍的静态平均值的增量实现技术。答:如下图。初始化:要被估计的策略V0无限次重复: (a) 使用策略 产生一个 episod

20、e(b) 对于出现在该 episode 中的每个状态 sR伴随 s 第一次发生的返回值)(1)(1 VRnVnn 用 first-visit MC 算法来估计 V(增量实现)6. 按照从(2.1)式中获得不加权规则(2.4)式的形式,从(5.4)式中得到对平均值加权的更新规则(5.5)。答: 11nknwRV11111 nnnnnkn WRwVWRVW9nnVRWwV17. 修改 off-policy 蒙特卡罗控制算法(图 5.7),使之能使用上面介绍的算法来递增计算加权的平均值。答:如下图。初始化,对于任意 s S , a A(s):Q(s,a)任意值任意的一个确定的策略无限次重复: (a)

21、 选择一个策略 并用它产生片段s0,a0,r1,s1,a1,r2,sT-1,aT-1,rT,sT(b) 使 a(s) 成立的最晚的时间(c) 对于在时间 或 后出现在片段中的每对 s, a:t 时间之后,第一次出现的 s,a 的时间, t对于第 n 个 episode 1,Ttkkaswif 1n nRQ),(Else 1nnWw1),(),(),( nnasQRass(d) 对于每个 s S:(s)arg max a Q(s,a)四、TD 学习1. 这个练习是帮助你去形成一种直觉,这种直觉是关于为什么时间差分方法比蒙特卡罗方法更有效。考虑驾车回家的例子,它是怎样被时间差分方法和蒙特卡罗方法表

22、述的。你能够想象这样一个场景,在这个场景中,时间差分更新平均优于蒙特卡罗方法吗?给出一个示例场景对过去经验的描述和一个当前状态在其中你期望时间差分更新更好。提示:假设你有许多驾车回家的经验。后来你搬到了一幢新楼,停车地点也发生了变化(但是你仍然在相同的地方进入高速公路)。现在你正在学习这个新楼的预计值。在这种情况下至少是在最初时,你能看到为什么时间差分更新可能更好一点吗?可能这个相同类型的事件发生在初始任务。答:略102. 从图 6.6 可以看出第一个片段仅仅导致 的改变。通过第一个情节之后,能说明什()VA么问题?为什么只有第一个状态的估计改变呢?它准确地改变了多少呢?答:1)在第一个情节中

23、,Agent 向左移动一步,并到达左边的吸收状态,情节结束2)Agent 向左移动一步,并到达左边的吸收状态,情节结束,并没有达到其他状态,因此其他状态的 V 值没有发生变化3)计算公式如下: ()()(ARTVA0.51*(0.5).43. 你认为通过选择不同的步长参数 ,但仍然保持是一个常量的话,算法能明显地比图6.7 中所示的效果更好吗?为什么或者为什么不呢?答:步长参数体现当前样本对整个样本空间的影响, 值越大,表明当前样本对整个样本空间的影响越大,反之亦然。且当 值越大时,算法的收敛速度越快,同时收敛效果变差,当 值越小时,算法的收敛速度越慢,同时收敛效果变号,这个通过图6.7 可以

24、看出。4. 在图 6.7 中,TD 方法的 RMS 误差似乎先减少然后又增加,特别是在高的 中。什么导致这个结果的发生呢?你认为这是一直发生的呢,还是这可能是一个函数关于近似值函数怎样初始化的问题呢?答:一直会发生,但并不是一直增加,可能在某一个时刻,曲线又出现下降的趋势。当 值越大,表明当前样本对整个样本空间的影响越大,反之亦然。因此,当 值较 大,并且算法趋近于收敛时,如果当前的样本较差,就容易使得收敛曲线发生震荡。5. 我们上面所述的随机行走任务的对 A 到 E 的所有状态的真实值是 和1,6324,。至少用两种可以计算的方式来描述。你猜哪种实际上我们已经用过了呢?为什56么?答:1)先

25、确定 的值为 0.5V()C2)不确定 的值,直接计算()11猜测:第一种方法被用过,在例子的描述中,有提到确定 的值为 0.5V()C6. 使用 Kings Moves 的有风的格子世界(编程) 假设有八个可能的动作解决有风的格子世界任务,包括斜向动作而不是通常的四个。你能将额外的动作做得更好吗?如果加入第九个没有任何移动的动作而不是由风导致的动作你怎样做得更好?答:略。7. 随机风(编程) 利用 Kings Moves 解决有风的格子世界问题,假设如果有风则风是随机的,有时候是从 1 变化到给定的每一列的平值。这也是第三次你根据这些值精确地移动,和上一个练习一样,但也是第三次你在一个格子上

26、方移动或者第三次在一个格子下方移动。例如,如果你有一个在其目标的右边,你往左移动,但是有三分之一的时间你移动到目标的上方,三分之一的时间你移动两个格子在目标的上方,三分之一的时间你移动到了目标。答:略。8. Sarsa 的更新图是什么?答:如下:9. 考虑与 Q学习一样的学习算法,除了用期望值取代了下一状态动作对上的最大值,这个期望值考虑了当前策略下每个动作的可能性。也就是考虑这个算法与 Q学习一样除了更新规则之外。 11(,)(,)(,)|(,)tttttttsasrEQsasa11, ,tttttaQ 这是一个属于 onpolicy 或 offpolicy 的新方法吗?这个算法的更新图是什

27、么?给定相同数目的经验,你认为这个方法比 Sarsa 好还是坏呢?哪些因素可能影响这个方法与Sarsa 的比较?答:1)属于 onpolicy2)更新图如下:123)比 sarsa 算法略好4)动作选择的概率 ,如果是 的话, 的值越大,值性能越接近 Q-(,)sasoftLearning10. 设计一个无折扣、连续任务的 onpolicy 方法。答:略。11. 描述怎样才能用后状态来描述 Jack 的汽车租赁任务。嗨,对于这个特别的任务,任务重新变化后,收敛速度可能有所提高?答:提示:主要考虑汽车租赁中状态时由经营者两个车库中剩余数量和顾客租赁的数量共同决定的,参照 tic-tac-toe 的例子。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报