中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于视觉表征的深度强化学习方法

文献类型:学位论文

作者刘民颂
答辩日期2024-05-12
文献子类博士
关键词深度强化学习,视觉表征学习,自监督学习,状态抽象,Transformer神经网络
英文摘要

视觉,作为人类获取外界信息的主要来源,其衍生的视觉智能产业是当前人工智能领域中最重要的产业之一。随着深度强化学习技术的持续进步及视觉智能的不断突破,基于视觉的强化学习技术已逐渐成为处理复杂控制问题的关键工具。视觉信号的高维度、冗余性以及多样性给基于视觉的强化学习的应用带来了一系列挑战,例如视觉表征强化学习普遍面临样本效率低、控制性能差和未知环境泛化难等问题。为了应对这些挑战,本文以典型的基于视觉的离散和连续控制环境为交互场景,重点研究基于视觉的强化学习方法在复杂控制任务中的样本效率和泛化性问题。针对视觉表征强化学习样本效率低和未知环境泛化难的问题,提出一种基于Q无关抽象的软对比学习方法;针对复杂视觉控制任务样本效率低和控制性能差的问题,提出一种基于Transformer的状态预测表征学习方法;针对更困难的复杂视觉控制任务样本效率低和训练难度大的问题,提出一种基于Transformer的状态-动作-奖赏预测表征学习方法。本文的主要内容和创新点如下:

基于Q无关抽象的软对比学习方法。针对视觉表征强化学习样本效率低和未知环境泛化难的问题,提出一种基于Q无关抽象的软对比学习方法SCQRL。首先提出一种更粗糙的近似Q无关抽象来定义状态特征,并通过理论分析证明近似Q无关抽象的合理性和有效性。然后构建一种基于Q 值的正负样本选择机制,以帮助对比学习获得具有Q无关特性的学习样本。最后提出一种软对比学习框架,缓解基于Q值的样本选择误差,同时学习具有Q无关特性的状态表征。在经典的视觉表征强化学习泛化平台ProcGen的多个环境实验结果表明,所提方法具有良好的样本效率和泛化性
基于Transformer的状态预测表征学习。针对复杂视觉控制任务样本效率低和控制性能差的问题,提出一种基于Transformer的状态预测表征学习方法TSPR。首先提出一种基于 Transformer 架构的预测模型,实现长序列数据的并行处理,提升计算效率的同时避免在灾难性遗忘问题。接着设计一种基于未来状态的单向预测任务,允许预测模型沿一个方向捕捉信息,着重于学习整个序列的表征。然后设计一种基于随机掩码的双向预测任务,促使预测模型细化对每个状态周围上下文信息的理解。最后通过两种预测任务的协同作用,促进智能体学习更有利于策略学习的状态表征。TSPR是一种通用的自监督表征学习框架,可以以辅助任务的形式与任何异策略强化学习算法结合。在连续控制平台DMControl和离散控制平台Atari实验结果表明,所提方法在多个连续和离散控制任务中具有良好的样本效率和收敛性能。
基于Transformer的状态-动作-奖赏预测表征学习。针对更困难的复杂视觉控制任务样本效率低和训练难度大的问题,提出一种基于Transformer的状态-动作-奖赏预测表征学习方法TSAR。首先提出一种基于 Transformer 的融合状态-动作-奖赏信息的序列预测任务,通过最大化掩码序列的预测状态特征与实际目标状态特征间的互信息,同步促进状态与动作的表征学习。接着提出一种逆动力学模型和一种奖赏预测模型,约束并指导智能体学会对策略更有帮助的状态和动作表征。最后TSAR以辅助任务的形式共享特征,将学到的状态表征和动作表征显式地参与策略的优化过程中,显著提高策略性能和学习效率。在连续控制平台DMControl的9个具有挑战性的困难环境实验结果表明,所提方法具有良好的样本效率和收敛性能。

语种中文
页码130
源URL[http://ir.ia.ac.cn/handle/173211/57517]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
刘民颂. 基于视觉表征的深度强化学习方法[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。