基于视觉表征的深度强化学习方法
文献类型:学位论文
作者 | 刘民颂![]() |
答辩日期 | 2024-05-12 |
文献子类 | 博士 |
关键词 | 深度强化学习,视觉表征学习,自监督学习,状态抽象,Transformer神经网络 |
英文摘要 | 视觉,作为人类获取外界信息的主要来源,其衍生的视觉智能产业是当前人工智能领域中最重要的产业之一。随着深度强化学习技术的持续进步及视觉智能的不断突破,基于视觉的强化学习技术已逐渐成为处理复杂控制问题的关键工具。视觉信号的高维度、冗余性以及多样性给基于视觉的强化学习的应用带来了一系列挑战,例如视觉表征强化学习普遍面临样本效率低、控制性能差和未知环境泛化难等问题。为了应对这些挑战,本文以典型的基于视觉的离散和连续控制环境为交互场景,重点研究基于视觉的强化学习方法在复杂控制任务中的样本效率和泛化性问题。针对视觉表征强化学习样本效率低和未知环境泛化难的问题,提出一种基于Q无关抽象的软对比学习方法;针对复杂视觉控制任务样本效率低和控制性能差的问题,提出一种基于Transformer的状态预测表征学习方法;针对更困难的复杂视觉控制任务样本效率低和训练难度大的问题,提出一种基于Transformer的状态-动作-奖赏预测表征学习方法。本文的主要内容和创新点如下: 基于Q无关抽象的软对比学习方法。针对视觉表征强化学习样本效率低和未知环境泛化难的问题,提出一种基于Q无关抽象的软对比学习方法SCQRL。首先提出一种更粗糙的近似Q无关抽象来定义状态特征,并通过理论分析证明近似Q无关抽象的合理性和有效性。然后构建一种基于Q 值的正负样本选择机制,以帮助对比学习获得具有Q无关特性的学习样本。最后提出一种软对比学习框架,缓解基于Q值的样本选择误差,同时学习具有Q无关特性的状态表征。在经典的视觉表征强化学习泛化平台ProcGen的多个环境实验结果表明,所提方法具有良好的样本效率和泛化性 |
语种 | 中文 |
页码 | 130 |
源URL | [http://ir.ia.ac.cn/handle/173211/57517] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 刘民颂. 基于视觉表征的深度强化学习方法[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。