中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
分层强化学习的子目标生成与探索策略

文献类型:学位论文

作者王开申
答辩日期2024-05-13
文献子类硕士
关键词分层强化学习,子目标生成,互信息,扩散模型
英文摘要

分层强化学习是强化学习领域的一个重要研究方向,其核心思想是利用时序抽象的方法对强化学习问题进行分层建模,并将目标任务分解为若干个简单的子任务进行求解。目前,传统的强化学习在处理复杂任务时还面临一些挑战,包括长序列决策、稀疏奖励和弱迁移能力等问题,而分层强化学习通过分而治之的思想可以有效地弥补这些难点。随着人工智能的迅速发展,分层强化学习已经成为了备受关注的研究热点,并在视觉导航、自然语言处理和机器人控制等现实世界领域中得到了广泛的应用。
在分层强化学习中,子目标是上层策略经过目标分解后下发给下层策略的子任务,它能够有效地指导下层策略进行学习和探索。然而,上层策略的子目标生成仍存在一些问题需要解决。一方面,现有方法的研究重点主要集中在如何生成含有更多学习信息的子目标,这就导致上层策略设计得过于复杂,子目标的生成过程消耗较多的计算和存储资源,从而降低了智能体的学习效率。另一方面,在长序列稀疏奖励任务中,下层策略需要子目标的有效引导才能实现更好的探索。现有的探索方法不仅需要设计合理的度量标准来评估智能体访问过的状态,而且在前期探索阶段,智能体还要花费较多的时间去探索一些对策略学习无用的状态,导致探索效率低下。
本文以智能体的学习效率和探索效率为切入点,分别从子目标的生成过程和探索方式两方面展开相关研究,主要研究内容和创新点总结如下:
• 基于互信息限制的子目标生成。本文提出了一种利用互信息缩减子目标空间的方法。该方法使用对比学习将子目标映射到互信息度量空间,并计算它们之间的互信息距离。同时,本文利用计算得到的互信息距离对上层策略生成的子目标施加了两种限制:一种限制缩小了当前状态与子目标之间的互信息距离,可以使得子目标能够被下层策略实现。另一种限制缩小了子目标与最终目标之间的互信息距离,可以使得最终目标在子目标实现后也能够被下层策略实现。这两种限制使得子目标可以作为当前状态和最终目标之间的关键节点,有效地指导下层策略的学习。实验结果表明,本文提出的方法能够提高智能体的学习效率,并且训练时间不受状态空间和动作空间大小的影响。
• 基于扩散模型的子目标探索。本文受扩散现象的启发,将分子由高浓度区域向低浓度区域运动的过程视为一种探索过程,并利用随机游走对此过程进行建模。为了实现智能体的随机游走,本文采用了扩散模型作为上层策略,同时利用其拟合多峰分布的能力对下层策略进行时序抽象。在抽象到下层策略实现的子目标之后,上层策略对抽象策略施加合适的噪声来指导下层策略模拟随机游走,从而实现子目标在整个状态空间的扩散,进而探索到最终目标。实验结果表明,基于扩撒模型的随机游走可以提高智能体的探索能力。此外,本文还讨论了扩散模型与在线式强化学习结合时存在的问题,并通过实验验证了奖励类型对智能体探索性能的影响。
综上所述,本文将互信息和扩散模型引入到分层强化学习中,提高了子目标的生成效率和探索效率,减少了智能体的训练时间,为分层强化学习在现实环境中的应用提供了不同的思路。

语种中文
页码64
源URL[http://ir.ia.ac.cn/handle/173211/56502]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
王开申. 分层强化学习的子目标生成与探索策略[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。