中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于混合更新Q值的深度强化学习方法研究

文献类型:学位论文

作者李主南
答辩日期2020-05-21
文献子类硕士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师侯新文
关键词深度强化学习 Q 学习算法 过估计 欠估计 Actor-Critic 凸组合 混合更新
学位名称工程硕士
学位专业计算机技术
英文摘要

  近年来,随着算力和数据的爆发式增长,掀起了人工智能相关领域的研究与应用热潮,深度强化学习也因此成为了一个研究热点。在深度强化学习领域,不管是基于值的方法,还是基于策略梯度的方法,都会涉及到 Q 值的估计更新问题。目前,绝大部分方法都是利用 Q 学习方式来更新目标,然而这种方式会产生过估计问题。因此,有必要提出一种新的更新 Q 值方法来扩展现有方法。
  过估计是著名 Q 学习算法的一个特性,它会导致算法训练得到的策略是次优的,因而利用 Q 学习方式来更新 Q 值的深度强化学习方法普遍存在该问题,包括Actor-Critic 算法。本文将围绕如何解决强化学习算法存在的过估计问题展开,主要目标是提出一种缓解过估计的方法,同时该方法对欠估计也能够起到有效的限制作用。我们首先对产生过估计问题的原因进行分析,产生该问题的主要原因是使用函数近似器估计时引入了噪声。其次,针对已有方法在解决过估计问题的同时还引入了欠估计问题,我们结合凸几何领域的凸组合概念,提出了混合更新方法。并且从理论上分析了混合更新方法能够减少方差,从而有效地提升算法的性能,并在一个简单的马尔科夫过程中得到了验证。最后,我们将该方法分别与深度强化学习中著名的深度 Q 网络算法,深度确定性策略梯度算法和双延迟深度确定性策略梯度算法结合起来,提出了相应的改进算法并在 Gym 平台上进行了实验。最后的实验结果表明,改进后算法的性能在大部分情况下优于原始算法,再一次验证了本文提出的方法的有效性。
  本文的研究成果主要有两点,一是针对过估计问题,受凸几何的启发提出了混合更新方法,并且在理论与实验中验证了该方法的有效性。二是将该方法与三种典型的深度强化学习算法结合起来,提出了对应的三种改进算法,大部分实验结果再一次表明该方法是缓解过估计问题的一种有效方式。

学科主题人工智能
语种中文
页码88
源URL[http://ir.ia.ac.cn/handle/173211/39162]  
专题智能系统与工程
推荐引用方式
GB/T 7714
李主南. 基于混合更新Q值的深度强化学习方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。