中国科学院机构知识库网格系统: 基于目标条件强化学习的无监督技能发现方法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于目标条件强化学习的无监督技能发现方法研究

文献类型：学位论文


作者	张天
答辩日期	2024-05-16
文献子类	硕士
关键词	目标稀疏奖励无监督强化学习探索技能策略
英文摘要	深度强化学习在解决具体问题时面临奖励函数难以设计的困难，为此研究人员提出了无监督技能发现的方法，旨在无环境（任务）奖励信号的前提下进行无监督的预训练，使智能体掌握技能策略。相比于为了获得某一具体任务的控制策略，而设计复杂的专一的奖励函数，这种无监督的预训练方式不仅回避了复杂的奖励函数设计问题，还能获得适应同环境或相似环境中大多数任务的具有通用性的技能策略，能够有效降低训练成本，提高策略的泛化性。然而，现有的基于互信息理论的无监督技能发现方法普遍存在探索能力弱，技能策略无法有效覆盖状态空间的问题。这是由于技能策略的训练依赖内在奖励，而无监督探索过程面临奖励分布动态变化以及稀疏奖励的问题。这会导致技能策略缺乏多样性以及通用性。考虑到目标条件强化学习能够利用目标之间的合理泛化来提升探索能力，并且目标条件策略与技能条件策略具有天然相似性，本文将目标条件强化学习方法用于改进无监督技能发现的探索过程。此外，目标条件强化学习针对目标可定义的任务，将奖励函数简化为判定目标是否达成的二元奖励信号。这大大降低了奖励函数的复杂性，但同时也引入了稀疏奖励的问题。通过目标重标记以及子目标规划等方法，目标条件强化学习能够一定程度上缓解稀疏奖励造成的训练困难。然而，现有的目标条件强化学习方法仍然存在样本利用率低，目标条件策略泛化能力弱的问题。本文针对上述问题，从提高目标条件强化学习样本利用率的角度出发，提出了基于虚拟状态转移经验的目标条件强化学习方法。并将目标条件强化学习方法用于改进无监督技能发现的探索过程，提出了目标引导的无监督技能发现方法。本文主要完成的研究工作以及创新点总结如下： 1.针对目标条件强化学习存在的奖励稀疏以及样本利用率低的问题，本文提出了一种基于虚拟状态转移经验的目标条件强化学习方法。该方法通过扩展目标重标记范围，提出了轨迹内重标记以及跨轨迹重标记两种目标重标记方法。前者基于真实交互轨迹构造出真实状态转移经验，后者基于跨轨迹采样的虚拟目标构造出虚拟状态转移经验。二者共同为智能体的策略学习提供了丰富的历史数据。考虑到虚拟状态转移经验容易造成策略学习过程的不稳定，本文基于目标条件强化学习的最优子结构属性，提出了一种子目标引导的策略改进方法。它采用子目标预测模型对当前状态到任意目标的潜在路径进行规划，子目标预测模型所提出的子目标将其可达性考虑在内，能够引导当前策略实现重标记目标。本文在导航与机械臂操作任务的实验中验证了所提方法的有效性。与基准算法的对比结果表明，所提方法在任务平均成功率以及样本利用率上均获得显著提升。 2.针对现有基于互信息理论的无监督技能发现方法存在探索能力弱，策略学习效果差的问题，本文提出了一种目标引导的无监督技能发现方法。首先，本文探讨了以往研究工作存在的局限性，具体包含以下三个方面：1）最大化互信息不鼓励探索；2）状态不可辨性导致技能退化；3）瓶颈状态限制技能探索。并将造成这种局限性的主要原因，归咎于它们采取的探索与学习并行化的方式。因此，本文所提方法采用探索与学习解耦的两阶段过程来实现无监督技能发现。随后，本文指出目标条件策略与技能条件策略存在天然的相似性，可以采用目标条件强化学习改进无监督技能发现的探索阶段，并通过微调探索策略加速技能策略的学习。本文所提方法能够克服以往工作中普遍存在的奖励分布动态变化的问题。本文在具有瓶颈状态的迷宫地图中验证了所提方法的有效性。与基准算法的对比结果表明，所提两阶段方法能够更充分探索状态空间，突破瓶颈限制。并且技能策略学习效果获得显著改善。
语种	中文
页码	80
源URL	[http://ir.ia.ac.cn/handle/173211/56907]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	张天. 基于目标条件强化学习的无监督技能发现方法研究[D]. 2024.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。